Usage non autorisé des sous-titres YouTube pour l’entraînement de l’IA
Selon une enquête menée par Proof News en collaboration avec Wired, plusieurs grandes entreprises technologiques, dont Apple, Anthropic, Nvidia et Salesforce, auraient utilisé un vaste ensemble de données contenant des sous-titres de plus de 170 000 vidéos YouTube pour former leurs systèmes d’intelligence artificielle. Ces sous-titres ont été extraits de YouTube sans aucun consentement, touchant plus de 48 000 chaînes de créateurs populaires comme MrBeast et Marques Brownlee, ainsi que des médias comme ABC News, la BBC et The New York Times.
Marques Brownlee, connu sous le pseudo MKBHD, a confirmé sur X que les données de ses vidéos avaient été utilisées sans autorisation. « Apple a obtenu des données pour leur IA de plusieurs entreprises, l’une d’elles a extrait énormément de données/sous-titres de vidéos YouTube, y compris les miennes. Cela va poser un problème évolutif pendant longtemps », a-t-il écrit.
Proof News a également lancé un outil interactif permettant de vérifier si des contenus spécifiques figurent dans cet ensemble de données. Ce dataset de sous-titres fait partie d’une collection plus vaste appelée The Pile, développée par l’organisation à but non lucratif EleutherAI. The Pile contient également des ensembles de données composés de livres, d’articles de Wikipedia, et plus encore. L’année dernière, une revue d’un de ces ensembles, Books3, a révélé que les œuvres d’auteurs avaient été utilisées sans permission pour entraîner des systèmes d’IA, suscitant des poursuites judiciaires contre des entreprises telles que Meta et Microsoft.
Il est rare que les entreprises d’IA soient transparentes quant aux sources de données utilisées pour former leurs systèmes. L’utilisation des contenus YouTube pour cet objectif est une question épineuse depuis des mois. En mars, lors du lancement de l’outil de génération vidéo d’OpenAI, Sora, la directrice technologique Mira Murati a évité de répondre aux questions sur l’utilisation de vidéos YouTube. « Je ne vais pas entrer dans les détails sur les données utilisées, mais il s’agissait de données disponibles publiquement ou sous licence », a-t-elle déclaré au Wall Street Journal. Lorsqu’on lui a demandé directement si des vidéos YouTube avaient été utilisées, elle a répondu n’en être pas certaine.
Répercussions légales et réponses des plateformes
Le PDG de YouTube, Neal Mohan, a précédemment affirmé que l’utilisation de contenus vidéo pour l’entraînement des IA, y compris les transcriptions, violerait les conditions d’utilisation de la plateforme. Sundar Pichai, PDG de Google, a exprimé son accord sur ce point. Lors d’un épisode de Decoder, il a déclaré que s’il était prouvé qu’OpenAI avait utilisé des contenus YouTube pour entraîner Sora, cela constituerait une infraction aux conditions d’utilisation de YouTube.
Pour les créateurs de contenu et le grand public, il est crucial de surveiller l’utilisation de leurs données en ligne et d’utiliser des outils de vérification comme celui de Proof News pour voir si leur travail est impliqué. Une vigilance accrue et une pression sur les entreprises technologiques pour plus de transparence et de respect des droits d’auteur sont essentielles.
Des questions ou préoccupations sur la sécurité de vos données en ligne ? Utilisez l’outil interactif de Proof News pour vérifier si vos vidéos YouTube ont été utilisées sans votre permission. Et surtout, restez informés des développements récents en matière de cybersécurité pour protéger vos droits et votre contenu.
Implications sécuritaires : Ce que vous devez savoir
L’utilisation non autorisée de contenus YouTube pour l’entraînement de systèmes d’intelligence artificielle soulève plusieurs préoccupations majeures en matière de cybersécurité. Le principal risque réside dans la violation des droits d’auteur et la potentielle exposition de données sensibles. En extrayant des sous-titres sans autorisation, ces entreprises créent des précédents dangereux pour la confidentialité et la sécurité des informations numériques des utilisateurs. Les créateurs de contenu peuvent voir leurs travaux utilisés sans compensation ni reconnaissance, ouvrant ainsi la voie à de potentielles actions légales et à une perte de confiance dans les plateformes.
Protégez-vous : Étapes clés contre les nouvelles vulnérabilités
Pour se protéger contre ces violations potentielles, les créateurs de contenu et les utilisateurs doivent adopter plusieurs mesures de précaution. Premièrement, surveillez régulièrement vos contenus en ligne à l’aide d’outils comme celui de Proof News pour détecter toute utilisation non autorisée. Deuxièmement, renforcez vos paramètres de confidentialité sur les plateformes de partage, en limitant l’accès public à vos vidéos. Enfin, envisagez de marquer électroniquement vos œuvres à l’aide de technologies de watermarking afin de prouver la propriété en cas de litige. Éduquer et informer est également crucial pour rester vigilant et protéger ses droits numériques dans ce paysage technologique en évolution rapide.
