DERNIÈRES NOUVELLES

en direct L'Iran suspend les négociations de paix avec Trump suite aux frappes israéliennes au Liban, provoquant une baisse des marchés

Mises à jour en direct il y a 19 heures
La CFTC interdit à Mashinsky de négocier des cryptomonnaies à vie, clôturant ainsi la première affaire de l'autorité de régulation concernant un prêteur de cryptomonnaies

Il y a 57 minutes - Règlement
MGX envisage une acquisition de plusieurs milliards de dollars de l'opérateur de centres de données DayOne afin de dominer l'infrastructure d'IA

Il y a 2 heures - Technologie
Le Japon prévoit un investissement de 65 milliards de dollars dans l'intelligence artificielle physique d'ici 2040 pour compenser la diminution de sa main-d'œuvre

Il y a 5 heures Économie

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Les géants de la technologie utilisent les sous-titres de YouTube pour l'entraînement de l'IA sans autorisation

Par

Brenda Kanana

2 minutes de lecture - 16 juillet 2024

Les géants de la technologie utilisent les sous-titres de YouTube pour l'entraînement de l'IA sans autorisation

Apple et d'autres développeurs d'IA, tels qu'Anthropic et Nvidia, ont été pris en flagrant délit d'utilisation non autorisée des sous-titres YouTube pour entraîner leurs systèmes d'IA.
L’ensemble de données « YouTube Subtitles » a été développé par EleutherAI et publié en 2020.
OpenAI a utilisé un million d'heures de vidéos YouTube pour entraîner son modèle GPT-4.

Apple, Nvidia et Anthropic ont été accusés d'utiliser les sous-titres de YouTube pour entraîner des modèles d'IA, ce qui est contraire au règlement de YouTube. Un article de Proof News et Wired a révélé que ces entreprises avaient utilisé un ensemble de données contenant les transcriptions de milliers de vidéos YouTube sans avoir acquis les licences nécessaires.

L' étude a révélé qu'Apple, Nvidia et Anthropic ont utilisé l'ensemble de données des sous-titres de YouTube. Cet ensemble de données comprend les transcriptions de 173 536 vidéos YouTube provenant de 48 000 chaînes. Parmi ces vidéos figurent des chaînes éducatives comme Khan Academy et le MIT, des chaînes d'information comme le Wall Street Journal, et des créateurs de contenu populaires comme MrBeast et Marques Brownlee.

Des YouTubeurs populaires réagissent à l'exploitation des données

Marques Brownlee, un youtubeur populaire, a commenté le problème sur X. Il a déclaré : « Apple a collecté des données pour son IA auprès d’autres entreprises. L’une d’elles a récupéré une grande quantité de données/transcriptions de vidéos YouTube, y compris les miennes. » Même si Apple n’a peut-être pas extrait les données directement, Brownlee a souligné que ce problème persistera.

L’ensemble de données « YouTube Subtitles » a été développé par EleutherAI et publié en 2020. Il contient 5,7 Go de données, dont les sous-titres des vidéos YouTube qui ont été retirées de la plateforme.

Conformément aux conditions d'utilisation de YouTube, l'accès aux vidéos par des moyens automatisés est interdit. La présence de sous-titres dans les vidéos supprimées ne fait qu'aggraver le problème, soulevant des questions de respect de la vie privée et de violation du droit d'auteur.

Salesforce, une organisation également impliquée dans l'enquête, a également admis avoir utilisé cet ensemble de données.

« L’ensemble de données Pile mentionné dans l’article de recherche a été entraîné en 2021 à des fins académiques et de recherche. Cet ensemble de données était accessible au public et diffusé sous une licence permissive. »
porte-parole de Salesforce

Cependant, l'utilisation de contenu YouTube sans autorisation reste controversée. En avril, le PDG de YouTube, Neil Mohan, a déclaré que l'utilisation de vidéos, de transcriptions ou d'extraits de YouTube pour l'entraînement d'IA constituait une violation flagrante du règlement. Or, selon le New York Times, OpenAI a utilisé un million d'heures de vidéos YouTube pour entraîner son modèle GPT-4.

Des batailles juridiques éclatent concernant l'utilisation du contenu internet par les entreprises spécialisées en IA

Le problème de l'utilisation non autorisée de contenu internet par les entreprises spécialisées en IA s'est accentué depuis le lancement de ChatGPT. Par ailleurs, des créateurs de contenu poursuivent Stability AI et Midjourney pour avoir prétendument extrait des œuvres protégées par le droit d'auteur sans autorisation. Google, propriétaire de YouTube, a fait face à des recours collectifs concernant des allégations similaires, arguant que de telles actions en justice menacent les fondements mêmes de l'IA générative.

Dans une interview accordée au Wall Street Journal, Mira Murati, directrice technique d'OpenAI, n'a pas précisé si l'entreprise avait utilisé des vidéos issues des réseaux sociaux pour entraîner ce nouveau modèle. Mustafa Suleyman, PDG de Microsoft AI, a déclaré socialtrac ».

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Apple Nvidia OpenAI YouTube

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Brenda Kanana

Brenda possède plus de quatre ans d'expérience dans le domaine des cryptomonnaies, de l'intelligence artificielle et des technologies émergentes. Elle a travaillé chez Zycrypto, Blockchain Reporter et The Coin Republic, et travaille désormais pour Cryptopolitan . Son diplôme de sociologie de l'Université technique de Mombasa lui permet de rester à l'écoute de ses lecteurs.

TABLE DES MATIÈRES

1. Des YouTubeurs populaires réagissent à l'exploitation des données

2. Des batailles juridiques éclatent concernant l'utilisation du contenu internet par les entreprises spécialisées en IA

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, John Palmer, technicien

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, John Palmer, technicien

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ SUR LES CRYPTOMONNAIES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)