Your bank is using your money. You’re getting the scraps.WATCH FREE

NVIDIA fait l'objet d'un examen minutieux concernant une collecte de données présumée sans autorisation pour des modèles d'IA

Dans cet article :

  • Des documents divulgués montrent que NVIDIA a collecté des données provenant de films et de vidéos YouTube sans consentement.
  • NVIDIA affirme que la collecte de données qu'elle pratique est légale en vertu des dispositions relatives à l'utilisation équitable.
  • Des communications internes révèlent que certains employés étaient préoccupés par des questions juridiques.

Des documents divulgués obtenus par 404 Media suggèrent que NVIDIA s'est livrée à une collecte de données sans licence, utilisant des séquences de films et de jeux provenant de divers sites internet pour entraîner ses produits d'intelligence artificielle. 

Les documents divulgués révèlent qu'ils tentaient de télécharger des films complets depuis différentes plateformes, dont Netflix, et que leur principal intérêt portait sur les vidéos YouTube. D'après les courriels obtenus par 404 Media, les responsables du projet prévoyaient d'utiliser entre 20 et 30 machines virtuelles sur Amazon Web Services pour obtenir 80 ans de vidéos en une seule journée.

NVIDIA défend ses actions et invoque les dispositions relatives à l'utilisation équitable

Le web scraping consiste àtracdu contenu vidéo, textuel et audio d'Internet sans l'autorisation des détenteurs de droits afin d'entraîner des modèles d'intelligence artificielle. Cette pratique peut être assimilée à l'utilisation de contenu provenant de plateformes de médias sociaux et protégé par le droit d'auteur. 

NVIDIA a déclaré n'avoir enfreint aucune loi sur le droit d'auteur lors de l'extraction de données. L'entreprise a également affirmé que ses activités relevaient de la doctrine de l'utilisation équitable, car elle utilise du matériel protégé par le droit d'auteur pour l'entraînement de l'IA.

Des documents internes obtenus par 404 Media indiquent que certains employés de NVIDIA ont exprimé des inquiétudes quant à ces activités de collecte de données. Cependant, les chefs de projet auraient minimisé ces inquiétudes, affirmant que les problèmes juridiques, comme les violations des conditions d'utilisation de YouTube, seraient traités ultérieurement. 

Voir aussi :  Le Kazakhstan va lancer son premier grand modèle linguistique

Un employé a souligné que les ingénieurs en IA de NVIDIA s'efforçaient d'obtenir un maximum d'extraits de jeux pour enrichir le corpus d'entraînement. Cela impliquait de diffuser les séquences de jeu sur le service cloud GeForceNow de NVIDIA afin d'enregistrer des vidéos en haute defi. Jim Fan, analyste de recherche senior, a également insisté, dans des messages internes, sur l'importance de ces séquences pour l'entraînement du modèle d'IA.

L'entreprise prend des mesures pour gérer la perception du public concernant ses pratiques en matière de données

Les documents détaillent également les tentatives de NVIDIA pour limiter les dégâts causés par ces pratiques. D'après des courriels divulgués, Ming-Yu Liu, vice-président de la recherche, a recommandé à l'entreprise d'éviter toute publication relative aux techniques d'extraction de données afin de prévenir toute réaction négative du public. NVIDIA a également créé ses propres outils d'extraction de données YouTube et des comptes API pour faciliter la collecte des données.

Le cadre juridique encadrant l'utilisation de l'IA pour l'extraction de données reste flou. Selon Robert Mahari du MIT, il peut être très complexe de prouver qu'une telle extraction a effectivement eu lieu. Les organisations ont intérêt à ne pas divulguer les sources de leurs données d'entraînement, car il devient difficile de prouver un abus en l'absence de preuves tangibles. 

Suno, une plateforme de génération musicale par IA, a récemment fait l'objet d'une polémique après avoir admis avoir utilisé le web scraping pour entraîner des modèles d'intelligence artificielle. Comme l'a précédemment rapporté Cryptopolitan, Steve Huffman, PDG de Reddit, a déclaré que l'entreprise continuerait d'interdire à Microsoft et aux autres sociétés d'IA d'utiliser le web scraping tant qu'elles n'auraient pas payé et que la plateforme n'aurait pas obtenu le contrôle de l'utilisation des données. Il a précisé que Reddit n'autoriserait pas le web scraping pour l'entraînement de modèles d'IA sans licence appropriée. 

Voir aussi :  Les recherches Google pour « IA » dépassent celles pour Bitcoin et les cryptomonnaies en 2023

La carte crypto sans limite de dépenses. Bénéficiez de 3 % cash et de paiements mobiles instantanés. Réclamez votre carte Ether.fi.

Partager le lien :

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. Cryptopolitan.com Cryptopolitan toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous vous recommandons vivement d’effectuer vos tron dent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Articles les plus lus

Chargement des articles les plus lus...

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Chargement des articles sélectionnés par la rédaction...

- La newsletter crypto qui vous donne une longueur d'avance -

Les marchés évoluent rapidement.

Nous avançons plus vite.

Abonnez-vous à Cryptopolitan Daily et recevez directement dans votre boîte mail des informations crypto pertinentes, pointues et actualisées.

Inscrivez-vous maintenant et
ne manquez plus aucun mouvement.

Entrez. Renseignez-vous.
Prenez de l'avance.

Abonnez-vous à CryptoPolitan