ChatGPT est particulièrement mauvais en médecine pédiatrique. Une nouvelle étude montre que le chatbot d’OpenAI donne 72% de réponses erronées et 11% de réponses incomplètes lorsqu’il est confronté à des cas théoriques d’enfants malades par une invite.
ChatGPT ne sait pas s’y prendre avec les enfants. Une étude publiée cette semaine dans JAMA Pediatrics montre que la dernière version du chatbot, GPT-4, est particulièrement mauvaise en médecine pédiatrique. Lorsqu’il s’agit de diagnostiquer des enfants malades, son taux d’exactitude n’est que de 17 %.
Pour arriver à ce résultat, les chercheurs ont confronté le chatbot à 100 cas réels publiés dans des revues médicales entre 2013 et 2023. Ces cas se présentent sous forme de mise en situation, avec un quiz ou un défi à résoudre. Les médecins qui lisent ces revues scientifiques tentent ainsi de trouver le bon diagnostic, en se basant sur les informations dont disposaient les médecins réellement confrontés à la situation.
Pour tester ChatGPT, les chercheurs ont tout simplement transposé le texte pertinent issue de la publication dans l’invite et lui ont demandé de donner un diagnostic. Le chatbot d’OpenAI a obtenu la bonne réponse dans seulement 17 des 100 cas. Il s’est clairement trompé dans 72 cas. Dans les 11 cas restants, il a établi un diagnostic incomplet.
ChatGPT n’est pas adapté à la médecine pédiatrique
Les chercheurs notent que par rapport aux cas adultes, les cas pédiatriques nécessitent une plus grande prise en compte de l’âge du patient, ce qui pourrait expliquer ces mauvais résultats. En effet, il est particulièrement difficile de diagnostiquer les maladies chez les jeunes enfants, car ils ne sont pas en mesure de décrire ou d’exprimer clairement les symptômes qu’ils ressentent.
À lire > ChatGPT : vous pouvez enfin archiver des conversations pour désencombrer le chatbot
Ainsi, les pédiatres ne seront pas mis au chômage par ChatGPT de sitôt. Les auteurs soulignent cependant que l’étude permet d’identifier les faiblesses qui ont conduit au taux d’erreur élevé de ChatGPT. Parmi ses mauvaises réponses, les chercheurs ont noté que ChatGPT semblait avoir du mal à repérer les relations connues entre plusieurs pathologies, ce qu’un véritable médecin peut déceler.
Les chercheurs pensent que le chatbot pourrait être amélioré en étant formé à partir de littérature médicale fiable. Jusqu’ici, le chatbot a été entrainé sur un corpus d’informations trouvées sur Internet, qui peuvent être inexactes ou erronées. C’est la même recommandation de spécialisation qu’établie par certains universitaires pour concevoir des outils capable de reconnaître les articles écrits par ChatGPT.