Les modèles de langage s’améliorent pour répondre à toutes vos questions, mais les chatbots continuent de faire trop d’erreurs.
Alors que l’Intelligence artificielle se développe sur tous nos appareils ou se transforme en outil de triche, des scientifiques espagnols en démontrent les limites.
Selon une étude menée par des scientifiques de l’Université de Valence en Espagne, et publiée sur le site scientifique nature, les modèles de langage deviennent plus puissants et plus faciles à utiliser, au détriment de la fiabilité de leur réponse. En effet, les analystes mettent en lumière une corrélation inversée entre l’augmentation de la taille (c’est-à-dire du volume de données et des ressources informatiques gérées) et le nombre d’erreurs sur des questions jugées simples pour des humains.
Les chercheurs ont utilisé différentes techniques telles que le réglage fin des instructions, l’apprentissage par renforcement à partir du retour d’information humain (RLHF) ou les techniques de modération du filtrage de sortie sur les trois modèles de langages les plus puissants : le modèle GPT, la série des LLaMA (de Meta) et la suite BLOOM (de BigScience).
Quels sont les constats de cette étude ?
L’étude s’intéresse, entre autres, à la sensibilité des modèles face aux variations de formulation des requêtes (prompts). Quinze formulations différentes ont été testées pour chaque requête, afin de voir comment les modèles réagissent aux changements de langage. Résultat : les versions brutes des modèles, notamment pour les tâches simples comme les additions, se montrent très sensibles à ces variations. Cependant, les modèles plus récents et ajustés, comme GPT-4, sont plus stables face à ces changements, bien que leur taux d’erreurs augmente avec la difficulté des tâches.
Un autre constat clé de l’étude : les modèles plus récents, bien qu’améliorés, sont moins prudents. Ils donnent plus souvent des réponses incorrectes au lieu de choisir de ne pas répondre, ce qui est contraire aux attentes des utilisateurs. En effet, il est préférable de ne pas avoir de réponse plutôt qu’une réponse erronée. Bien que ces modèles soient plus fiables pour les tâches complexes, ils continuent de faire des erreurs sur des tâches simples. Il est donc toujours nécessaire de continuer à vérifier les réponses d’un chatbot plutôt que de lui faire aveuglément confiance.