In un recente sviluppo, OpenAI ha ricevuto untronavvertimento dal CEO di YouTube, Neal Mohan, in merito all'utilizzo della sua piattaforma per addestrare i modelli di intelligenza artificiale all'avanguardia Sora e ChatGPT. Questo avvertimento viene emesso alla luce di possibili violazioni dei termini di servizio di YouTube e di preoccupazioni relative alla fonte dei dati di addestramento. La questione relativa alla fonte dei dati di addestramento per questi sistemi di intelligenza artificiale all'avanguardia ha stimolato una discussione sulla ricerca etica sull'intelligenza artificiale e sugli obblighi delle aziende tecnologiche.
Esplorare le preoccupazioni di YouTube
La recente intervista di Mira Murati aggiunge un ulteriore livello di incertezza al quadro già confuso delle pratiche di addestramento dell'IA. Ciò che è stato forse ancora più preoccupante è che, in un'intervista al Wall Street Journal condotta appena un mese fa, il CTO di OpenAI, Mira Murati, ha espresso incertezza e mancanza di chiarezza sulla fonte dei dati di addestramento di Sora. Sebbene non sia chiaro se i video di YouTube siano stati o siano utilizzati per l'addestramento, Neal Mohan, CEO dell'azienda, ha ora potenzialmente lanciato un segnale di avvertimento informando OpenAI che l'utilizzo di video sulla sua piattaforma è vietato.
Vieta il download di materiali come trascrizioni o videoclip, e farlo costituisce una palese violazione dei nostri termini di servizio, ha dichiarato Mohan in un'intervista con Emily Chang per Bloomberg Originals. Queste sono le linee guida per i contenuti sulla nostra piattaforma. Mentre Google, la società madre di YouTube, ha sviluppato la propria intelligenza artificiale multimodale denominata Gemini, che utilizza anch'essa dati di addestramento, Mohan ha affermato che Google segue iltracesclusivo di ciascun creatore con YouTube quando decide se utilizzare o meno i contenuti della piattaforma.
Mohan ha affermato:
"Non consente il download di contenuti come trascrizioni o frammenti video, e questa è una chiara violazione dei nostri termini di servizio. Queste sono le regole del gioco in termini di contenuti sulla nostra piattaforma."
Fonte: Bloomberg
Mohan ha anche aggiunto:
"Google rispetta itracindividuali di YouTube con i creatori prima di decidere se utilizzare i video dalla piattaforma."
Fonte: Bloomberg
Orientarsi nello sviluppo etico dell'intelligenza artificiale
Un esame più approfondito dei commenti di Murati evidenzia quanto sia seria la questione del copyright e dell'attribuzione. È possibile che Sora di OpenAI raccolga tutto ciò che si trova su Internet, inclusi video di YouTube e post sui social network, data l'espressione "dati pubblicamente disponibili". Ad esempio, è altamente improbabile che i termini di licenza per tutti i contenuti pubblicati su YouTube consentano questo tipo di utilizzo.
La tutela del copyright su Internet è di per sé un compito arduo. Allo stesso tempo, Sora di OpenAI avrà accesso a questo diritto e potrà trarne profitto, oltre a utilizzarlo per scopi didattici.
Non è solo il CTO di OpenAI a essere restio a parlare dei set di dati utilizzati nell'apprendimento di Sora. In generale, l'azienda non menziona le fonti utilizzate. Nel documento tecnico di Sora non si fa nemmeno un chiaro riferimento alla necessità di un numero significativo di filmati con sottotitoli di testo per l'addestramento dei sistemi di creazione di testo in video.
Poiché queste aziende non hanno il diritto legale di utilizzare i dati, la loro mancanza di trasparenza in merito potrebbe essere il primo segnale che stanno cercando di evitare problemi legali.

