Des documents divulgués obtenus par 404 Media suggèrent que NVIDIA s'est livrée à une collecte de données sans licence, utilisant des séquences de films et de jeux provenant de divers sites internet pour entraîner ses produits d'intelligence artificielle.
Les documents divulgués révèlent qu'ils tentaient de télécharger des films complets depuis différentes plateformes, dont Netflix, et que leur principal intérêt portait sur les vidéos YouTube. D'après les courriels obtenus par 404 Media, les responsables du projet prévoyaient d'utiliser entre 20 et 30 machines virtuelles sur Amazon Web Services pour obtenir 80 ans de vidéos en une seule journée.
NVIDIA défend ses actions et invoque les dispositions relatives à l'utilisation équitable
Le web scraping consiste àtracdu contenu vidéo, textuel et audio d'Internet sans l'autorisation des détenteurs de droits afin d'entraîner des modèles d'intelligence artificielle. Cette pratique peut être assimilée à l'utilisation de contenu provenant de plateformes de médias sociaux et protégé par le droit d'auteur.
NVIDIA a déclaré n'avoir enfreint aucune loi sur le droit d'auteur lors de l'extraction de données. L'entreprise a également affirmé que ses activités relevaient de la doctrine de l'utilisation équitable, car elle utilise du matériel protégé par le droit d'auteur pour l'entraînement de l'IA.
Des documents internes obtenus par 404 Media indiquent que certains employés de NVIDIA ont exprimé des inquiétudes quant à ces activités de collecte de données. Cependant, les chefs de projet auraient minimisé ces inquiétudes, affirmant que les problèmes juridiques, comme les violations des conditions d'utilisation de YouTube, seraient traités ultérieurement.
Un employé a souligné que les ingénieurs en IA de NVIDIA s'efforçaient d'obtenir un maximum d'extraits de jeux pour enrichir le corpus d'entraînement. Cela impliquait de diffuser les séquences de jeu sur le service cloud GeForceNow de NVIDIA afin d'enregistrer des vidéos en haute defi. Jim Fan, analyste de recherche senior, a également insisté, dans des messages internes, sur l'importance de ces séquences pour l'entraînement du modèle d'IA.
L'entreprise prend des mesures pour gérer la perception du public concernant ses pratiques en matière de données
Les documents détaillent également les tentatives de NVIDIA pour limiter les dégâts causés par ces pratiques. D'après des courriels divulgués, Ming-Yu Liu, vice-président de la recherche, a recommandé à l'entreprise d'éviter toute publication relative aux techniques d'extraction de données afin de prévenir toute réaction négative du public. NVIDIA a également créé ses propres outils d'extraction de données YouTube et des comptes API pour faciliter la collecte des données.
Le cadre juridique encadrant l'utilisation de l'IA pour l'extraction de données reste flou. Selon Robert Mahari du MIT, il peut être très complexe de prouver qu'une telle extraction a effectivement eu lieu. Les organisations ont intérêt à ne pas divulguer les sources de leurs données d'entraînement, car il devient difficile de prouver un abus en l'absence de preuves tangibles.
Suno, une plateforme de génération musicale par IA, a récemment fait l'objet d'une polémique après avoir admis avoir utilisé le web scraping pour entraîner des modèles d'intelligence artificielle. Comme l'a précédemment rapporté Cryptopolitan, Steve Huffman, PDG de Reddit, a déclaré que l'entreprise continuerait d'interdire à Microsoft et aux autres sociétés d'IA d'utiliser le web scraping tant qu'elles n'auraient pas payé et que la plateforme n'aurait pas obtenu le contrôle de l'utilisation des données. Il a précisé que Reddit n'autoriserait pas le web scraping pour l'entraînement de modèles d'IA sans licence appropriée.

