Documenti trapelati ottenuti da 404 Media suggeriscono che NVIDIA abbia effettuato operazioni di scraping di dati senza licenza, utilizzando filmati di film e giochi da Internet per addestrare i suoi prodotti di intelligenza artificiale.
I documenti trapelati rivelano che stavano cercando di scaricare film completi da vari canali, tra cui Netflix, e il loro interesse principale erano i video di YouTube. Dalle email ottenute da 404 Media, i project manager intendevano impiegare tra le 20 e le 30 macchine virtuali su Amazon Web Services per ottenere 80 anni di video al giorno.
NVIDIA difende le proprie azioni e invoca le disposizioni sul fair use
Il data scraping è la pratica ditraccontenuti video, testuali e audio da Internet senza l'autorizzazione dei proprietari dei contenuti per addestrare modelli di intelligenza artificiale. Questa pratica potrebbe essere vista come l'utilizzo di contenuti provenienti da piattaforme di social media che includono contenuti protetti da copyright.
NVIDIA ha dichiarato di non aver violato alcuna legge sul copyright durante il processo di data scraping. L'azienda ha inoltre affermato che le sue attività rientrano nella dottrina del fair use, poiché utilizza materiale protetto da copyright per l'addestramento dell'intelligenza artificiale.
Documenti ottenuti dalle comunicazioni interne di 404 Media indicano che alcuni dipendenti di NVIDIA hanno espresso preoccupazione per queste attività di data scraping. Tuttavia, i project manager avrebbero minimizzato le preoccupazioni, affermando che le questioni legali, ad esempio le violazioni dei Termini di servizio di YouTube, sarebbero state affrontate in seguito.
Un dipendente ha sottolineato che gli ingegneri di intelligenza artificiale di NVIDIA hanno cercato di ottenere il maggior numero possibile di clip di gioco per arricchire il corpus di addestramento. Ciò ha comportato lo streaming del gameplay sul servizio cloud GeForceNow di NVIDIA per registrare video di gioco in alta defi. Anche Jim Fan, analista senior di ricerca, ha sottolineato in messaggi interni l'importanza di tali filmati come input per l'addestramento del modello di intelligenza artificiale.
L'azienda adotta misure per gestire la percezione pubblica delle pratiche relative ai dati
I documenti descrivono anche i tentativi di NVIDIA di limitare i danni derivanti dalle ripercussioni di tali pratiche. Secondo alcune e-mail trapelate, il vicepresidente della ricerca Ming-Yu Liu ha raccomandato all'azienda di evitare di pubblicare documenti relativi alle tecniche di data scraping per evitare reazioni negative da parte del pubblico. L'azienda ha inoltre creato un proprio set di strumenti di data scraping di YouTube e account API per facilitare il processo di raccolta dati.
La posizione giuridica relativa alle norme che regolano l'uso dell'IA nello scraping dei dati non è ancora molto chiara. Secondo Robert Mahari del MIT, può essere piuttosto complicato stabilire se lo scraping dei dati sia effettivamente avvenuto. Le organizzazioni potrebbero trarre vantaggio dal non rivelare le fonti dei propri dati di training, poiché diventa difficile dimostrare un abuso in assenza di prove tangibili.
Un'altra piattaforma, Suno, una piattaforma di generazione musicale basata sull'intelligenza artificiale, è recentemente finita sotto i riflettori per aver ammesso l'uso del data scraping per addestrare modelli di intelligenza artificiale. Come precedentemente riportato da Cryptopolitan, il CEO di Reddit Steve Huffman ha dichiarato che l'azienda continuerà a vietare a Microsoft e ad altre aziende di intelligenza artificiale di utilizzare il data scraping fino a quando non verrà effettuato il pagamento e la piattaforma non acquisirà il controllo sull'utilizzo dei dati. Ha affermato che Reddit non consentirà l'uso del data scraping per addestrare modelli di intelligenza artificiale senza la licenza appropriata.

