Les géants de la technologie et l’utilisation controversée des vidéos YouTube pour former l’IA
Les entreprises technologiques recourent de plus en plus à des tactiques controversées pour alimenter leurs modèles d’intelligence artificielle (IA), en aspirant des livres, des sites web, des photos, et des publications sur les réseaux sociaux souvent à l’insu des créateurs. Une enquête récente de Proof News a révélé que certaines des plus riches sociétés d’IA au monde ont utilisé les sous-titres de milliers de vidéos YouTube pour entraîner leurs modèles d’IA, malgré les règles de YouTube interdisant la collecte de matériel sans permission.
L’enquête a montré que les sous-titres de 173 536 vidéos YouTube, issues de plus de 48 000 chaînes, ont été exploités par des poids lourds de la Silicon Valley, dont Anthropic, Nvidia, Apple et Salesforce. Ce dataset, appelé « YouTube Subtitles, » contient des transcriptions de vidéos provenant de chaînes éducatives et d’apprentissage en ligne telles que Khan Academy, le MIT et Harvard. Des vidéos de médias comme le Wall Street Journal, NPR et la BBC ont également été utilisées, ainsi que des émissions de variétés populaires comme The Late Show With Stephen Colbert et Jimmy Kimmel Live.
Des créateurs puissants de YouTube comme MrBeast, Marques Brownlee et PewDiePie ont vu leurs vidéos incluses dans le dataset. Par exemple, les sous-titres de 377 vidéos de Jacksepticeye, qui compte près de 31 millions d’abonnés, ont été utilisés. Certains contenus employés pour former l’IA promeuvent même des théories du complot telles que la théorie de la Terre plate.
Réactions des créateurs de contenu
David Pakman, animateur de The David Pakman Show, a exprimé son désarroi en apprenant que près de 160 de ses vidéos avaient été incluses dans le dataset sans consentement. Il a souligné la nécessité d’une compensation, estimant que les créateurs doivent être rémunérés pour l’utilisation de leurs données, d’autant plus que des accords de rémunération ont été récemment signés par certaines entreprises médiatiques pour l’utilisation de leurs œuvres à des fins de formation de l’IA.
Dave Wiskus, PDG de Nebula, un service de streaming appartenant partiellement à ses créateurs, a qualifié cette pratique de « vol » et a jugé que l’utilisation des œuvres des créateurs sans leur consentement était irrespectueuse et potentiellement préjudiciable, surtout si cela conduit à remplacer les artistes par de l’IA générative.
Les entreprises impliquées, comme EleutherAI, qui a créé le dataset, n’ont pas répondu aux demandes de commentaires. Selon la porte-parole d’Anthropic, Jennifer Martinez, la petite quantité de sous-titres YouTube utilisée dans le dataset Pile se distingue de l’usage direct de YouTube, et toute question sur les potentielles violations des conditions de service de YouTube devrait être adressée aux auteurs du Pile.
Certaines entreprises, telles que Salesforce, ont confirmé l’utilisation du Pile pour des « buts académiques et de recherche, » soulignant que le dataset était « publiquement disponible. » Cependant, une analyse par Proof News a révélé que le Pile contenait non seulement des sous-titres de YouTube, mais aussi des données comme les emails de la société Enron et des documents du Parlement européen.
Jai Vipra, chercheur en politiques d’IA et fellow de CyberBRICS à la Fundação Getulio Vargas Law School au Brésil, a affirmé que les entreprises technologiques gardent souvent secrètes leurs sources de données pour rester compétitives. Cette pratique a suscité des tensions avec les créateurs de contenu, inquiets que leur travail puisse être utilisé à mauvais escient par des modèles d’IA pour générer des productions qui pourraient leur nuire économiquement.
En conclusion, cette pratique soulève des questions et préoccupations importantes sur la compensation, le consentement et les possibles régulations nécessaires pour protéger les créateurs tout en favorisant le développement de l’IA. Le dialogue et la transparence entre les créateurs de contenu et les entreprises technologiques semblent indispensables pour éviter l’exploitation et le préjudice des talents artistiques et intellectuels.
Implications sécuritaires : Ce que vous devez savoir
La collecte non autorisée de sous-titres YouTube par des géants technologiques soulève des inquiétudes majeures en matière de cybersécurité. Cette pratique expose les créateurs à des risques de reproduction non consentie de leur travail, pouvant mener à des plagiats et des diffusions non contrôlées de contenus sensibles ou faussement attribués. Les faux contenus et les abus de droits d’auteur peuvent entacher la réputation des auteurs et créer des conflits juridiques coûteux.
Protégez-vous : Étapes clés contre les nouvelles vulnérabilités
Pour se protéger, les créateurs de contenu devraient surveiller l’utilisation de leurs œuvres et envisager de déposer des revendications pour violation des droits d’auteur auprès des plateformes concernées. Il est crucial de s’informer sur les politiques de données des services utilisés et d’utiliser des outils de surveillance en ligne pour détecter rapidement les abus potentiels. Les entreprises doivent également évaluer leurs pratiques de collecte de données pour s’assurer du respect des règles et des droits des créateurs.
