La qualité de Wikipedia menacée par l’utilisation abusive de l’IA

Le combat des éditeurs et des rédacteurs de Wikipédia contre les contenus rédigés par IA. Un problème de fond au vu de la qualité médiocre des écrits et le fait que rien ne soit documenté.

IA qui écrit
Image IA générée avec Microsoft Bing Image Creator

L’intelligence artificielle va changer nos vies. Elle a d’ailleurs commencé. Elle permet à n’importe qui de créer des œuvres d’art grâce à la génération d’une image basée sur une description en langage courant. Les outils d’image IA sont nombreux, parfois gratuits, et ont souvent été entraînés sur des contenus sans l’accord de leurs auteurs. Ils posent aussi des problèmes dans le cas des deep fakes.

L’IA peut aussi s’avérer très utile dans la vie de tous les jours : elle peut résumer des documents de plusieurs pages, ou une vidéo YouTube très longue (ou pas d’ailleurs), elle peut vous aider à répondre à vos emails, etc.

L’IA est aussi présente au niveau de la rédaction. Nombreux sont les outils qui vous proposent d’écrire pour vous, ou de répondre à vos questions, comme le très fameux ChatGPT (mais ce n’est pas le seul) ou même un outil spécifique dédié aux journalistes et développé par Google. Le gros problème avec les rédactions issues d’intelligence artificielle, c’est que les modules de génération de texte IA ont une composante créative.

De manière simple, cela veut dire que l’IA va inventer des choses, notamment si elle ne dispose pas de toutes les informations dont elle a besoin pour traiter d’un sujet. Et c’est là que le bât blesse. Notamment si vous êtes en train de rédiger un article pour Wikipédia.

Rappelons que Wikipédia est une encyclopédie libre, gratuite et accessible à tous. Les articles que vous y trouverez sont rédigés par de nombreuses personnes, vous aussi, vous pourriez rédiger un article si vous avez les connaissances nécessaires.

Afin de garantir la véracité des informations, les articles de Wikipédia doivent être documentés. C’est-à-dire que les sources d’information qui ont servi à les rédiger doivent être citées. Si vous êtes déjà allé sur un article Wikipédia, vous avez certainement vu cela dans les notes de bas de page.

L’IA, un véritable danger pour les connaissances ?

Alors oui, soyons clair, les aides à la rédaction basées sur l’IA peuvent être utiles. Elles permettent de gagner du temps et de trouver des idées de tournures de phrases. Ce n’est pas cet usage de l‘IA contre lequel Wikipédia souhaite partir en guerre. Non, c’est l’autre usage, l’usage sauvage, celui qui consiste à faire écrire un paragraphe à l’IA et à l’injecter tel quel dans un article Wikipédia, sans le relire, sans le reprendre et, surtout, sans en vérifier la teneur.

Nous l’avons déjà dit le premier problème de la rédaction par IA c’est l’usage de l’imaginaire pour combler des trous dans les connaissances de l’IA. L’autre problème, ce sont les sources. En effet, votre IA a une certaine quantité de connaissances, parfois assez ancienne, suivant quand elle a été entraînée. 

Cela entraîne des informations qui ne sont pas à jour. De plus, si l’IA a accès à internet (ce qui est de plus en plus le cas, comme Bing Chat, ChatGPT, etc.), rien ne dit qu’elle va aller chercher ses informations sur des sources fiables.

Et comme certaines IA ne vous donnent pas la liste de leurs sources (normalement les IA ayant accès à Internet le font), impossible de vérifier où elles sont allées chercher les informations.

L’usage de l’IA pour la rédaction nécessite donc un travail en amont, pour connaître le sujet, et en aval, pour vérifier les dires de l’IA. D’autre part, les textes générés par IA sont souvent répétitifs et de mauvaise qualité, ils doivent donc impérativement être retouchés par un humain afin d’être rendus lisibles par un autre humain.

Le résultat ? Une mauvaise qualité de contenu en grande quantité risque de transformer Wikipédia en une décharge d’information, et lui enlever son statut encyclopédique dont ses éditeurs sont si fiers, avec des années (voire des décennies) de contenus documentés de qualité qui risque d’en pâtir.

Les textes créés par IA facilement détectables

Heureusement, certains de ces textes sont décelables de manière quasi automatique, les pseudo-rédacteurs ne se donnant même pas la peine de supprimer les réponses spécifiques des IA (des termes comme “selon mes connaissances actuelles” ou “en tant que modèle de langage IA”, etc.). Les éditeurs de Wikipédia ont également appris à reconnaître des structures de phrases spécifiques à l’IA, qui leur permettent aussi de détecter les textes concernés.

Le problème majeur est de trouver le contenu IA de mauvaise qualité lorsqu’il semble être réel, et qu’il a trait à un sujet complexe qui nécessite des connaissances spécifiques. Un exemple a été donné par les éditeurs au média 404. Il s’agit d’un article long et ultra-détaillé sur l’histoire d’une forteresse ottomane « en bois ». Si l’article a été conservé, non directement dans Wikipédia, mais dans une partie spécifique de l’encyclopédie, c’est uniquement à des fins de listage d’articles irréels. En effet, cette forteresse n’a jamais existé.

Le plus compliqué, comme toujours, pour Wikipédia, c’est qu’il s’agit d’un projet basé sur le crowdsourcing (la participation de chacun) et que tous les éditeurs sont des volontaires. Difficile dans ce cas spécifique d’arriver à traquer et à éradiquer ce nouveau mal (enfin pas si nouveau que ça), qui touche tous les médias du monde.