Apple utilise des vidéos YouTube sans consentement pour entraîner ses IA

D’après un rapport récent, plusieurs géants de la technologie, dont Apple, ont entraîné leurs modèles d’intelligence artificielle (IA) en utilisant des vidéos YouTube sans le consentement des créateurs. Cette pratique a été menée en téléchargeant des fichiers de sous-titres de plus de 170 000 vidéos par une tierce partie. Parmi les créateurs touchés, on trouve des personnalités telles que Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver et Jimmy Kimmel.

Ces fichiers de sous-titres servent en fait de transcriptions du contenu des vidéos. Une enquête conduite par Proof News a révélé que certaines des entreprises d’IA les plus riches du monde ont utilisé ce matériel provenant de milliers de vidéos YouTube pour entraîner leurs modèles d’IA. Les entreprises ont agi malgré les règles de YouTube interdisant l’extraction de ce type de matériel sans autorisation.

Selon Wired, les sous-titres de 173 536 vidéos YouTube, provenant de plus de 48 000 chaînes, ont été utilisés par des poids lourds de la Silicon Valley, y compris Anthropic, Nvidia, Apple et Salesforce. Les téléchargements auraient été effectués par une organisation à but non lucratif appelée EleutherAI, qui assiste les développeurs dans l’entraînement de modèles d’IA. Bien que l’objectif semble avoir été de fournir du matériel de formation aux petits développeurs et aux chercheurs universitaires, l’ensemble de données a également été exploité par plusieurs géants de la technologie, dont Apple.

Le rôle d’EleutherAI et l’utilisation des données par les géants de la tech

D’après un article de recherche publié par EleutherAI, le jeu de données fait partie d’une compilation appelée « the Pile » que l’organisation a mise à disposition. La plupart des ensembles de données du Pile sont accessibles et ouverts à toute personne disposant de suffisamment d’espace de stockage et de puissance de calcul pour y accéder. Des chercheurs et autres développeurs extérieurs aux grandes entreprises technologiques ont utilisé cet ensemble de données, mais ils n’ont pas été les seuls.

Apple, Nvidia et Salesforce, des entreprises dont la valorisation atteint des centaines de milliards et même des milliers de milliards de dollars, décrivent dans leurs publications de recherche comment elles ont utilisé le Pile pour entraîner leurs IA. Des documents montrent également qu’Apple a utilisé le Pile pour former OpenELM, un modèle de haute envergure lancé en avril, quelques semaines avant que la société n’annonce l’ajout de nouvelles fonctionnalités d’iPhones et MacBooks.

Wired précise qu’Apple n’avait pas répondu à une demande de commentaire au moment de la rédaction de l’article.

9to5Mac souligne qu’il est important de préciser qu’Apple n’a pas téléchargé les données elle-même; ces actions ont été réalisées par EleutherAI. C’est donc cette organisation qui semble avoir violé les termes et conditions de YouTube.

Cependant, même si Apple et les autres entreprises mentionnées ont probablement utilisé un ensemble de données disponible publiquement en toute bonne foi, cela illustre bien les complications légales engendrées par le scraping du web pour entraîner des systèmes d’IA. Il existe de nombreux exemples de systèmes d’IA ayant plagié des paragraphes entiers de texte lorsqu’ils sont interrogés sur des sujets spécialisés, et les dangers d’utiliser du matériel sans permission sont amplifiés lorsque les entreprises utilisent des jeux de données compilés par des tiers.

Nous avons contacté Apple pour obtenir des commentaires et mettrons à jour cet article avec toute réponse éventuelle.

[Image source](https://9to5mac.com/wp-content/uploads/sites/6/2024/07/Apple-used-YouTube-videos-to-train-AI-without-consent.jpg?quality=82&strip=all&w=1600)

Implications sécuritaires : Ce que vous devez savoir

L’utilisation non autorisée de contenus YouTube pour entraîner des IA pose plusieurs risques en cybersécurité. Premièrement, l’extraction de données sans consentement enfreint les politiques de confidentialité et peut conduire à des poursuites légales. Deuxièmement, les systèmes d’IA alimentés par des données piratées peuvent intégrer et amplifier des biais existants, compromettant ainsi l’intégrité des résultats produits. Enfin, les entreprises utilisant ces méthodes risquent de voir leur réputation ternie, ce qui peut entraîner une perte de confiance des utilisateurs et des partenaires.

Protégez-vous : Étapes clés contre les nouvelles vulnérabilités

Pour se protéger contre ces risques, les entreprises doivent adopter des politiques strictes en matière de conformité et de respect de la propriété intellectuelle. Les créateurs de contenu devraient exercer une vigilance accrue en surveillant l’utilisation de leurs œuvres en ligne. L’utilisation d’outils de reconnaissance et de signalisation des infractions peut être une mesure proactive pour éviter l’exploitation non autorisée de contenus. Enfin, il est crucial de promouvoir une culture de transparence et d’éthique dans le développement et le déploiement des technologies d’IA.