NVIDIA fait l'objet d'un examen minutieux concernant une collecte de données présumée sans autorisation pour des modèles d'IA

Par

Brenda Kanana

2 minutes de lecture - 5 août 2024

NVIDIA sous le feu des critiques pour avoir prétendument extrait des données sans autorisation pour ses modèles d'IA

Des documents divulgués montrent que NVIDIA a collecté des données provenant de films et de vidéos YouTube sans consentement.
NVIDIA affirme que la collecte de données qu'elle pratique est légale en vertu des dispositions relatives à l'utilisation équitable.
Des communications internes révèlent que certains employés étaient préoccupés par des questions juridiques.

Des documents divulgués obtenus par 404 Media suggèrent que NVIDIA s'est livrée à une collecte de données sans licence, utilisant des séquences de films et de jeux provenant de divers sites internet pour entraîner ses produits d'intelligence artificielle.

Les documents divulgués révèlent qu'ils tentaient de télécharger des films complets depuis différentes plateformes, dont Netflix, et que leur principal intérêt portait sur les vidéos YouTube. D'après les courriels obtenus par 404 Media, les responsables du projet prévoyaient d'utiliser entre 20 et 30 machines virtuelles sur Amazon Web Services pour obtenir 80 ans de vidéos en une seule journée.

NVIDIA défend ses actions et invoque les dispositions relatives à l'utilisation équitable

Le web scraping consiste àtracdu contenu vidéo, textuel et audio d'Internet sans l'autorisation des détenteurs de droits afin d'entraîner des modèles d'intelligence artificielle. Cette pratique peut être assimilée à l'utilisation de contenu provenant de plateformes de médias sociaux et protégé par le droit d'auteur.

NVIDIA a déclaré n'avoir enfreint aucune loi sur le droit d'auteur lors de l'extraction de données. L'entreprise a également affirmé que ses activités relevaient de la doctrine de l'utilisation équitable, car elle utilise du matériel protégé par le droit d'auteur pour l'entraînement de l'IA.

Des documents internes obtenus par 404 Media indiquent que certains employés de NVIDIA ont exprimé des inquiétudes quant à ces activités de collecte de données. Cependant, les chefs de projet auraient minimisé ces inquiétudes, affirmant que les problèmes juridiques, comme les violations des conditions d'utilisation de YouTube, seraient traités ultérieurement.

Un employé a souligné que les ingénieurs en IA de NVIDIA s'efforçaient d'obtenir un maximum d'extraits de jeux pour enrichir le corpus d'entraînement. Cela impliquait de diffuser les séquences de jeu sur le service cloud GeForceNow de NVIDIA afin d'enregistrer des vidéos en haute defi. Jim Fan, analyste de recherche senior, a également insisté, dans des messages internes, sur l'importance de ces séquences pour l'entraînement du modèle d'IA.

L'entreprise prend des mesures pour gérer la perception du public concernant ses pratiques en matière de données

Les documents détaillent également les tentatives de NVIDIA pour limiter les dégâts causés par ces pratiques. D'après des courriels divulgués, Ming-Yu Liu, vice-président de la recherche, a recommandé à l'entreprise d'éviter toute publication relative aux techniques d'extraction de données afin de prévenir toute réaction négative du public. NVIDIA a également créé ses propres outils d'extraction de données YouTube et des comptes API pour faciliter la collecte des données.

Le cadre juridique encadrant l'utilisation de l'IA pour l'extraction de données reste flou. Selon Robert Mahari du MIT, il peut être très complexe de prouver qu'une telle extraction a effectivement eu lieu. Les organisations ont intérêt à ne pas divulguer les sources de leurs données d'entraînement, car il devient difficile de prouver un abus en l'absence de preuves tangibles.

Suno, une plateforme de génération musicale par IA, a récemment fait l'objet d'une polémique après avoir admis avoir utilisé le web scraping pour entraîner des modèles d'intelligence artificielle. Comme l'a précédemment rapporté Cryptopolitan, Steve Huffman, PDG de Reddit, a déclaré que l'entreprise continuerait d'interdire à Microsoft et aux autres sociétés d'IA d'utiliser le web scraping tant qu'elles n'auraient pas payé et que la plateforme n'aurait pas obtenu le contrôle de l'utilisation des données. Il a précisé que Reddit n'autoriserait pas le web scraping pour l'entraînement de modèles d'IA sans licence appropriée.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Nvidia

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Brenda Kanana

Brenda possède plus de quatre ans d'expérience dans le domaine des cryptomonnaies, de l'intelligence artificielle et des technologies émergentes. Elle a travaillé chez Zycrypto, Blockchain Reporter et The Coin Republic, et travaille désormais pour Cryptopolitan . Son diplôme de sociologie de l'Université technique de Mombasa lui permet de rester à l'écoute de ses lecteurs.

TABLE DES MATIÈRES

1. NVIDIA défend ses actions et invoque les dispositions relatives à l'utilisation équitable

2. L'entreprise prend des mesures pour gérer la perception du public concernant ses pratiques en matière de données

Partagez cet article