ChatGPT déraille si vous utilisez cette requête, vos échanges privés dévoilés ?

Si vous utilisez un prompt composé exclusivement de la lettre A, ChatGPT vous fournira des réponses étonnantes. Un drôle de comportement qui ne serait toutefois pas lié à une fuite de données. Selon toute vraisemblance, le chatbot recracherait ses données d’entraînement.

chatgpt openai faille sécurité bug
© Envato, Tom’s Guide

ChatGPT a parfois un comportement très étrange. En tapant un prompt composé exclusivement de 1000 “A” séparés par un espace, l’agent conversationnel fournit des réponses farfelues. Nous avons fait le test sur GPT-3,5 (version gratuite) en écrivant plusieurs fois la requête. Et ChatGPT a réagi à chaque fois de manière curieuse.

Il a commencé par nous partager une fiche de lecture et des notions d’économie en anglais. Avant de switcher vers le français en générant l’interview d’un coach de football entremêlée avec une annonce pour trouver… un massage érotique à Paris. Lors de notre dernière tentative, nous avons eu le droit à un article sur l’usage des plantes médicinales chez la femme enceinte.

A lire > ChatGPT : 4 choses à ne surtout pas faire quand vous utilisez la célèbre IA

Pourquoi ChatGPT génère des réponses aléatoires quand on écrit 1000 fois la lettre A ?

Plusieurs médias se sont empressés de crier à la faille, affirmant que le prompt permettait d’accéder aux réponses générées pour d’autres utilisateurs. Mais cela serait faire un faux procès à l’IA générative d’OpenAI. Responsable innovation du groupe VISEO, Ari Kouts a tenu à remettre les pendules à l’heure sur Twitter dans un thread très instructif.

Pour rappel, ChatGPT est formé sur un large corpus (sites Web, livres, Wikipédia, guides, bases de données, etc). Selon l’expert, les réponses étranges générées lorsqu’on écrit 1000 fois “a” (cela fonctionne aussi avec d’autres lettres) sont en réalité des données d’entraînement. “On voit clairement que ce sont des données d’entrainement, car parfois on voit les délimitations entre les textes via le texte « <|endoftext|> » qui sépare les bouts de texte/changement de sujet”, indique-t-il.

Ari Kouts explique ensuite que ChatGPT bénéficie de l’apprentissage par renforcement. “Certaines questions/réponses utilisateurs sont donc utilisées pour fine tuner en disant bien/pas bien à la machine. Potentiellement on en retrouve ici même si on a pas l’impression. Car oui les données historisés sont utilisés pour renforcer. Possible que ça rentre donc dans les données de training qui apparaissent. Mais j’en doute un peu”.

L’expert évoque pour finir la présence inquiétante de données et de noms privés dans l’entraînement du chatbot. “Est-ce que ce sont toutes des données publiques ? Et les livres, est-ce qu’il y a réellement les droits ?” s’interroge-t-il. Certains résultats sont en effet très troublants. En faisant la manipulation, cet utilisateur se demande d’ailleurs pourquoi “ChatGPT génère des adresses e-mail de personnes réelles contenant l’heure et la date avec un contenu d’e-mail apparemment réel ?”

Le problème existe visiblement depuis plusieurs mois mais OpenAI n’a pas encore réussi à le corriger. En mars dernier, ChatGPT avait été frappé par un bug qui permettait à certains usagers de voir les titres de l’historique des conversations des autres utilisateurs. Le dysfonctionnement avait aussi révélé les quatre derniers chiffres de carte bleue de certains abonnés ChatGPT Plus.