DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Les géants de la technologie utilisent les sous-titres de YouTube pour l'entraînement de l'IA sans autorisation

ParBrenda KananaBrenda Kanana
2 minutes de lecture -
Les géants de la technologie utilisent les sous-titres de YouTube pour l'entraînement de l'IA sans autorisation
  • Apple et d'autres développeurs d'IA, tels qu'Anthropic et Nvidia, ont été pris en flagrant délit d'utilisation non autorisée des sous-titres YouTube pour entraîner leurs systèmes d'IA.
  • L’ensemble de données « YouTube Subtitles » a été développé par EleutherAI et publié en 2020.
  • OpenAI a utilisé un million d'heures de vidéos YouTube pour entraîner son modèle GPT-4. 

Apple, Nvidia et Anthropic ont été accusés d'utiliser les sous-titres de YouTube pour entraîner des modèles d'IA, ce qui est contraire au règlement de YouTube. Un article de Proof News et Wired a révélé que ces entreprises avaient utilisé un ensemble de données contenant les transcriptions de milliers de vidéos YouTube sans avoir acquis les licences nécessaires. 

À lire également : L’autorité de surveillance britannique ouvre une enquête sur le recrutement de talents en IA chez Microsoft

L' étude a révélé qu'Apple, Nvidia et Anthropic ont utilisé l'ensemble de données des sous-titres de YouTube. Cet ensemble de données comprend les transcriptions de 173 536 vidéos YouTube provenant de 48 000 chaînes. Parmi ces vidéos figurent des chaînes éducatives comme Khan Academy et le MIT, des chaînes d'information comme le Wall Street Journal, et des créateurs de contenu populaires comme MrBeast et Marques Brownlee. 

Des YouTubeurs populaires réagissent à l'exploitation des données

Marques Brownlee, un youtubeur populaire, a commenté le problème sur X. Il a déclaré : « Apple a collecté des données pour son IA auprès d’autres entreprises. L’une d’elles a récupéré une grande quantité de données/transcriptions de vidéos YouTube, y compris les miennes. » Même si Apple n’a peut-être pas extrait les données directement, Brownlee a souligné que ce problème persistera.

L’ensemble de données « YouTube Subtitles » a été développé par EleutherAI et publié en 2020. Il contient 5,7 Go de données, dont les sous-titres des vidéos YouTube qui ont été retirées de la plateforme. 

Conformément aux conditions d'utilisation de YouTube, l'accès aux vidéos par des moyens automatisés est interdit. La présence de sous-titres dans les vidéos supprimées ne fait qu'aggraver le problème, soulevant des questions de respect de la vie privée et de violation du droit d'auteur.

Salesforce, une organisation également impliquée dans l'enquête, a également admis avoir utilisé cet ensemble de données. 

« L’ensemble de données Pile mentionné dans l’article de recherche a été entraîné en 2021 à des fins académiques et de recherche. Cet ensemble de données était accessible au public et diffusé sous une licence permissive. »

porte-parole de Salesforce 

Cependant, l'utilisation de contenu YouTube sans autorisation reste controversée. En avril, le PDG de YouTube, Neil Mohan, a déclaré que l'utilisation de vidéos, de transcriptions ou d'extraits de YouTube pour l'entraînement d'IA constituait une violation flagrante du règlement. Or, selon le New York Times, OpenAI a utilisé un million d'heures de vidéos YouTube pour entraîner son modèle GPT-4. 

Des batailles juridiques éclatent concernant l'utilisation du contenu internet par les entreprises spécialisées en IA

Le problème de l'utilisation non autorisée de contenu internet par les entreprises spécialisées en IA s'est accentué depuis le lancement de ChatGPT. Par ailleurs, des créateurs de contenu poursuivent Stability AI et Midjourney pour avoir prétendument extrait des œuvres protégées par le droit d'auteur sans autorisation. Google, propriétaire de YouTube, a fait face à des recours collectifs concernant des allégations similaires, arguant que de telles actions en justice menacent les fondements mêmes de l'IA générative. 

Dans une interview accordée au Wall Street Journal, Mira Murati, directrice technique d'OpenAI, n'a pas précisé si l'entreprise avait utilisé des vidéos issues des réseaux sociaux pour entraîner ce nouveau modèle. Mustafa Suleyman, PDG de Microsoft AI, a déclaré socialtrac ». 

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Brenda Kanana

Brenda Kanana

Brenda possède plus de quatre ans d'expérience dans le domaine des cryptomonnaies, de l'intelligence artificielle et des technologies émergentes. Elle a travaillé chez Zycrypto, Blockchain Reporter et The Coin Republic, et travaille désormais pour Cryptopolitan . Son diplôme de sociologie de l'Université technique de Mombasa lui permet de rester à l'écoute de ses lecteurs.

PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ SUR LES CRYPTOMONNAIES