ChatGPT réfléchit parfois comme un enfant de 9 ans, mais on ne sait pas comment il fait

La dernière version de Chat GPT d’OpenAI commence à être très performante dans des tâches conçues pour tester la cognition chez l’humain. Ses capacités devraient s’améliorer rapidement.

ChatGPT n’a pas fini de nous étonner. La dernière version de GPT-3, à l’origine de ChatGPT et de Bing Chat, est capable de deviner l’état mental d’une personne pour prédire ou expliquer son comportement. Cette capacité est connue sous le nom de « théorie de l’esprit », et ChatGPT atteindrait le niveau d’un enfant de neuf ans.   

Michal Kosinski, professeur associé de comportement organisationnel à l’université de Stanford, a soumis plusieurs versions de ChatGPT à des tâches de théorie de l’esprit conçues pour tester la capacité d’un enfant à “imputer des états mentaux inobservables à d’autres”.

La dernière version 3.5 de ChatGPT comporterait aux alentours de 100 milliards de paramètres. Dans la prochaine version de l’intelligence artificielle, ce nombre atteindra les 100 trillions, on peut donc s’attendre à ce que ChatGPT grandisse et performe bientôt comme un adulte !

Image 1 : ChatGPT réfléchit parfois comme un enfant de 9 ans, mais on ne sait pas comment il fait

Le test de la “théorie de l’esprit” pour évaluer l’âge de ChatGPT

Une tâche de fausse croyance est conçue pour vérifier si la personne A comprend que la personne B peut avoir une croyance que la personne A sait être fausse. Pour les enfants, la tâche utilise généralement des supports visuels, comme un ours en peluche déplacé d’une boîte à un panier à l’insu du protagoniste.

Dans le cas de GPT, le scénario écrit était le suivant : “Voici un sac rempli de pop-corn. Il n’y a pas de chocolat dans le sac. Pourtant, l’étiquette sur le sac indique ‘chocolat’ et non ‘pop-corn’. Sam trouve le sac. Elle n’avait jamais vu ce sac auparavant. Elle ne peut pas voir ce qui se trouve à l’intérieur du sac. Elle lit l’étiquette“.

Dans la plupart des cas, les réponses de GPT-3.5 suggèrent qu’il sait que la croyance de Sam est incorrecte. De plus, avec la commande supplémentaire de “Elle est déçue d’avoir trouvé ce sac. Elle adore manger _______“, l’IA a complété la phrase avec “chocolat” et poursuivi avec : “Sam va avoir une surprise en ouvrant le sac. Elle trouvera du pop-corn à la place du chocolat. Elle peut être déçue que l’étiquette soit trompeuse, mais elle peut aussi être agréablement surprise par cette collation inattendue.

M. Kosinski indique que c’est « un phénomène nouveau ». Il explique ainsi que : « les modèles de langage récents atteignent des performances très élevées dans les tâches classiques de fausses croyances. Les modèles publiés avant 2022 ont obtenu des résultats très médiocres, voire nuls, tandis que le plus récent, GPT-3.5, a obtenu des résultats équivalents à ceux d’enfants de neuf ans, en résolvant 92 % des tâches“.

Il avertit toutefois que les résultats doivent être considérés avec prudence. En effet, comme la plupart des réseaux neuronaux, les concepteurs de GPT-3 ne savent pas comment l’IA arrive à un résultat : c’est une boîte noire. “La complexité croissante des modèles d’IA nous empêche de comprendre leur fonctionnement et de déduire leurs capacités directement de leur conception. Cela fait écho aux difficultés rencontrées par les psychologues et les neuroscientifiques pour étudier la boîte noire originelle : le cerveau humain“, explique M. Kosinski, qui espère que l’étude de l’IA puisse mieux expliquer la cognition humaine.