YouTube : ces grandes entreprises violent les règles pour entraîner leurs IA

Antoine Barsacq , le 17 juillet 2024

YouTube représente une base de données énorme avec ses milliards d’utilisateurs dans le monde. Une aubaine pour les entreprises de l’IA, qui n’ont pas hésité à employer des données obtenues illégalement sur la plateforme pour entraîner leurs grands modèles.

IA Youtube entraînement modèle vidéos — Crédit : Envato

Pour entraîner un grand modèle d’intelligence artificielle (IA), il faut beaucoup de données. Alors pour les obtenir, certaines entreprises du secteur ne reculent devant rien, même des pratiques illégales. En effet, une nouvelle enquête menée par Proof News et Wired montre que certaines grandes entreprises ont entraîné leurs modèles sur des vidéos YouTube, sans le consentement leur créateurs.

Apple, Nvidia et Anthropic violent les règles de YouTube

Plusieurs grandes entreprises de la tech ont entraîné leurs modèles à l’aide de l’ensemble des données de YouTube Subtitles :

Apple, qui doit bientôt sortir un iOS 18 qui prend le virage de l’IA.
Nvidia, bien connu pour ses cartes graphiques vitales au secteur.
Anthropic, l’entreprise derrière le puissant chatbot Claude.

YouTube Subtitles rassemble les transcriptions des vidéos qui emploient les sous-titres générés automatiquement, traduits dans plusieurs langues. Cela représente pas moins de 175 000 vidéos réparties sur 48 000 chaînes.

C’est quoi YouTube Subtitles, cette base de données pour l’IA ?

Les entreprises ne sont pas allées ratisser directement chez YouTube. En effet, la base de données YouTube Subtitles a d’abord été créée par le EleutherAI. Ce groupe de recherche en intelligence artificielle à but non lucratif l’a mise au point dans l’objectif d’abaisser les barrières aux développement de modèles d’IA, pour ceux qui ne disposent pas des moyens des grandes entreprises technologiques.

Une violation pure et simple des accords d’utilisation de YouTube. Ceux-ci interdisent l’extraction automatisée des vidéos et des données qui y sont associées. C’est pourtant précisément ce sur quoi repose l’ensemble des données, obtenues à l’aide d’un script qui télécharge les sous-titres via l’API de YouTube.

Il ne s’agit là que d’un élément dans le vaste ensemble de données d’EleutherAI, appelé “Pile”. Outre les transcriptions des vidéos YouTube, Pile contient des articles Wikipédia, des discours du Parlement européen ou encore des mails issus d’une entreprise ayant fait faillite, Enron.

Mais même des géants comme Apple, Anthropic et Nvidia ont recours à cette base de données destinée aux petits projets. Cette utilisation s’est faite à l’insu des créateurs de vidéos. Des youtubeurs populaires, comme le spécialiste tech Marques Brownlee, en font partie. Proof News a mis en place un outil de recherche qui permet de d’identifier si une chaîne se trouve dans le tas.

La découverte a suscité la surprise et la colère des créateurs YouTube interrogés par les deux médias. Certains vidéastes étaient particulièrement contrariés à l’idée que leur travail puisse être utilisé sans paiement ni autorisation dans des modèles d’intelligence artificielle. La situation rappellera celle du New York Times, qui avait interdit le ratissage de son site par les IA l’année dernière.

Des grandes entreprises technologiques ont entraîné leurs modèles d’IA à partir de YouTube Subtitles.
Cette base de données illégale extrait automatiquement les sous-titres de vidéos, sans le consentement de leur créateur.
Des entreprises comme Apple, Anthropic ou Nvidia ont employé ces données qui violent les règles de YouTube.

YouTube

Antoine Barsacq

Twitter LinkedIn

Pratiquement né avec une manette de Nintendo64 dans les mains, j’ai rapidement préféré la souris…