Le modèle de langage ChatGPT est capable de générer des textes cohérents et convaincants, mais son utilisation soulève des questions éthiques et juridiques. Il pourrait être interdit en Europe en raison de préoccupations liées à la collecte et à l’utilisation des données personnelles.
OpenAI est confronté à des enquêtes dans plusieurs pays de l’Union européenne en raison de préoccupations concernant la collecte et l’utilisation des données personnelles par son chatbot de génération de texte, ChatGPT.
L’autorité italienne a bloqué temporairement l’utilisation de ChatGPT, tandis que les régulateurs de données, allemand, irlandais et canadien enquêtent également sur la manière dont OpenAI collecte et utilise les données. Le comité européen de la protection des données, l’organisation faîtière des autorités de protection des données, a également mis en place un groupe de travail pour coordonner les enquêtes et l’application autour de ChatGPT, alors que la CNIL, en France, a ouvert une enquête.
ChatGPT sera-t-il interdit en Europe ? OpenAI a 10 jours pour se conformer aux exigences de l’UE
La soif d’OpenAI de modèles plus grands, basés sur une collecte de données massive d’Internet, est à l’origine des problèmes actuels de l’entreprise. Les experts estiment que la conformité d’OpenAI aux règles européennes de protection des données sera pratiquement impossible. Les autorités de régulation demandent à OpenAI de demander le consentement des personnes pour l’utilisation de leurs données, de les informer sur l’utilisation de leurs données, de leur donner le pouvoir de corriger les erreurs et de supprimer leurs données si elles le souhaitent.
Si OpenAI ne parvient pas à prouver que ses pratiques d’utilisation des données sont légales, elle risque de faire face à des amendes, de devoir supprimer des données, voire d’être interdite dans certains pays ou dans toute l’Union européenne. Les violations présumées d’OpenAI sont si flagrantes qu’elles pourraient aboutir devant la Cour de justice de l’Union européenne.
À lire : ChatGPT : 4 choses à ne surtout pas faire quand vous utilisez la célèbre IA
Le règlement général sur la protection des données de l’UE est le régime de protection des données le plus strict au monde et sa portée a été largement copiée dans le monde entier. Les régulateurs de données de nombreux pays seront attentifs à l’issue de cette affaire et le résultat pourrait changer la manière dont les entreprises d’IA collectent les données.
OpenAI devra être plus transparente sur ses pratiques en matière de données et devra montrer qu’elle utilise l’une des deux manières légales possibles de collecter des données d’entraînement pour ses algorithmes : le consentement ou l’intérêt légitime. Il est peu probable qu’OpenAI puisse prouver qu’elle a obtenu le consentement des personnes concernées pour la collecte de leurs données, ce qui laisserait l’entreprise avec l’argument qu’elle avait un intérêt légitime à le faire. Cela obligerait l’entreprise à présenter des arguments convaincants aux régulateurs sur l’importance réelle de ChatGPT pour justifier la collecte de données sans consentement. L’Italie a donné à OpenAI jusqu’au 30 avril pour se conformer à la loi.
Une aiguille dans une botte de foin
Les entreprises technologiques ont tendance à ne pas documenter la façon dont elles collectent ou annotent les données pour l’apprentissage automatique. Elles ne savent souvent même pas ce qui se trouve dans l’ensemble de données, selon Nithya Sambasivan, ancienne chercheuse chez Google et entrepreneure ayant étudié les pratiques de données de l’IA, qui s’adresse au MIT Technology Review.
Trouver les données des italiens dans le vaste ensemble de données de formation de ChatGPT est comme chercher une aiguille dans une botte de foin. Même si OpenAI parvenait à supprimer les données des utilisateurs, il n’est pas certain que cette étape soit permanente. Des études ont montré que les ensembles de données persistaient sur Internet longtemps après leur suppression, car des copies de l’original ont tendance à rester en ligne.
« La collecte de données est très, très immature » en matière d’IA, déclare Margaret Mitchell, chercheuse en IA et scientifique en chef de l’éthique à la startup Hugging Face, qui était auparavant co-responsable de l’éthique de l’IA chez Google. En effet, alors que des tonnes de travail ont été consacrées au développement de techniques de pointe pour les modèles d’IA, les méthodes de collecte de données n’ont guère évolué au cours de la dernière décennie.
« Ce qui est vraiment préoccupant, c’est la façon dont il utilise les données que vous lui donnez dans le chat », explique Alexis Leautier, expert IA à la CNIL. Les gens ont tendance à partager des informations intimes et privées avec le chatbot, en lui parlant de choses comme leur état mental, leur santé ou leurs opinions personnelles. Leautier dit que c’est problématique s’il y a un risque que ChatGPT régurgite ces données sensibles à d’autres. Et en vertu de la législation européenne, les utilisateurs doivent pouvoir faire supprimer leurs données de journal de chat, ajoute-t-il.