Meta Platforms ha addestrato i suoi modelli di intelligenza artificiale utilizzando versioni pirata di libri protetti da copyright, con l'approvazione del suo CEO Mark Zuckerberg.
Secondo documenti giudiziari recentemente divulgati, un gruppo di autori sostiene che il gigante dei social media era a conoscenza del fatto che stavano utilizzando materiale pirata per addestrare i loro sistemi di intelligenza artificiale.
Documenti interni di Meta “rivelano” le affermazioni
Nella loro documentazione in tribunale, gli autori hanno affermato che i documenti interni prodotti da Meta durante il processo di scoperta hanno dimostrato che l'azienda di social network era a conoscenza dei libri piratati. Secondo il Guardian , il suo CEO Zuckerberg ha appoggiato l'uso del dataset LibGen, un enorme archivio online di libri. Questo nonostante gli avvertimenti all'interno del team esecutivo dell'IA dell'azienda, secondo cui si tratta di un dataset "che sappiamo essere piratato".
Lo scrittore statunitense Ta-Nehisi Coates, la comica Sarah Silverman e altri scrittori che hanno fatto causa all'azienda per violazione del copyright hanno formulato le accuse in atti resi pubblici mercoledì presso un tribunale federale della California.
Nel 2023 gli autori hanno portato Meta in tribunale con l'accusa che la società di social media stesse utilizzando impropriamente i loro libri per addestrare modelli di intelligenza artificiale, in particolare Llama, il suo ampio modello linguistico che alimenta i suoi chatbot.
Originario della Russia, il dataset Library Genesis o LibGen è una "biblioteca ombra" che sostiene di contenere milioni di romanzi, libri di notifica e articoli di riviste scientifiche.
Nel 2024, un tribunale federale di New York ha chiesto agli operatori anonimi di LibGen di pagare a un gruppo di editori 30 milioni di dollari di danni per violazione del copyright
Questa è una delle tante altre accuse secondo cui opere protette da copyright di autori, artisti e altri sarebbero state utilizzate per addestrare strumenti di intelligenza artificiale generativa come il chatbot ChatGPT senza il consenso dei proprietari. I professionisti della creatività hanno avvertito che l'utilizzo delle loro opere senza il loro consenso sta mettendo a repentaglio i loro modelli di business.
Secondo Reuters , gli imputati hanno tuttavia sostenuto di aver fatto un uso corretto del materiale protetto da copyright.
Il giudice ha consentito agli autori di presentare una denuncia modificata
Nel caso Meta, gli autori avrebbero chiesto mercoledì al tribunale l'autorizzazione a presentare un reclamo aggiornato. Nelle loro argomentazioni, hanno indicato che nuove prove dimostrano che le aziende di social network hanno utilizzato il set di dati di addestramento dell'intelligenza artificiale LibGen, che include milioni di opere piratate, e lo hanno distribuito tramite torrent peer-to-peer.
Secondo loro, Zuckerberg "ha approvato l'uso del set di dati LibGen da parte di Meta nonostante le preoccupazioni del team esecutivo di intelligenza artificiale di Meta (e di altri in Meta) secondo cui LibGen è 'un set di dati che sappiamo essere piratato'"
Il documento cita anche un promemoria che fa riferimento alle iniziali di Zuckerberg, osservando che "dopo l'escalation a MZ", il team di intelligenza artificiale di Meta "ha ricevuto l'approvazione per utilizzare LibGen"
L'anno scorso, un giudice distrettuale statunitense, Vince Chhabria, ha respinto le accuse secondo cui il testo generato dai modelli di intelligenza artificiale di Meta violava i diritti d'autore degli autori e che Meta aveva illegalmente rimosso le informazioni sulla gestione del copyright dei libri. Queste informazioni si riferiscono alle informazioni sull'opera, tra cui il titolo, il nome dell'autore e il titolare del copyright.
Tuttavia, ai ricorrenti è stato consentito di modificare le loro affermazioni. Nelle loro argomentazioni di questa settimana, gli autori hanno affermato che le prove rafforzavano le loro rivendicazioni di violazione e giustificavano la riapertura del caso relativo alle informazioni sulla gestione del copyright, aggiungendo una nuova accusa di frode informatica.
Durante l'udienza di giovedì, il giudice ha affermato che avrebbe consentito agli autori di presentare una denuncia modificata, sebbene fosse scettico sulla fondatezza delle accuse di frode.

