Che si tratti del lavoro di OpenAI , Google e Meta, o del finanziamento dell'IA nel settore industriale, che comprende vari mezzi come la raccolta o l'accumulo di enormi volumi di dati digitali in modi diversi, creativi ma controversi, è chiaro che le capacità e le potenzialità dell'automazione stanno aumentando. In particolare, gli sforzi che comportano azioni come l'adozione delle misure sopra descritte (ovvero, la presa in considerazione dei limiti legali e delle policy aziendali) equivalgono alla considerevole quantità di dati utilizzata per addestrare i sistemi di IA.
L'iniziativa Whisper di OpenAI: analizzare le conversazioni di YouTube
La nostra storia con Whisper è iniziata solo l'anno scorso. C'è una carenza schiacciante di testi in inglese di prima qualità, che causa ritardi nell'erogazione dell'istruzione. Whisper è stato il passo successivo di Google. Ha compreso l'oceano di dialoghi di YouTube ed è stato sviluppato come testo, un'applicazione text-to-speech. Lo strumento basato sull'intelligenza artificiale, composto da oltre un milione di ore di video di YouTube analizzati dall'intelligenza artificiale per generare nuovi testi (in sostanza, una nuova conversazione), è stato utilizzato per addestrare modelli di intelligenza artificiale prodotti dallo stato dell'arte fino a GPT-4, l'ultima versione del chatbot ChatGPT.
Sebbene alcuni dipendenti sostenessero che il filmato Microsoft di OpenAI avrebbe plagiato YouTube su tutti i fronti, l'etica del plagio era ancora discutibile; inoltre, alcuni lavoratori hanno ammesso che sarebbe stato impossibile allinearsi esattamente alle intenzioni di YouTube. Allo stesso modo, l'acquisizione di obiezioni nell'elaborazione algoritmica dei video per l'tracdei contenuti testuali da alimentare per i modelli di intelligenza artificiale avrebbe potuto essere considerata una minaccia al copyright dei creatori di video, suscitando indignazione.
Meta, la società madre di Facebook e Instagram, era anch'essa preoccupata per l'utilizzo di elementi protetti da copyright di case editrici come Simon & Schuster, tra le altre. Allo stesso tempo, ha anche discusso l'acquisizione di contenuti web generali, con il rischio di essere colta in flagrante per violazione del copyright.
La crisi dei dati: promuovere approcci non convenzionali
La raccolta di dati, caratterizzata da una forte competizione, aiuta a evidenziare il ruolo cruciale dei dati edentnello sviluppo della tecnologia dell'intelligenza artificiale. Il linguaggio di un'intelligenza artificiale gestisce sempre più set di dati di addestramento, tra cui quelli del Commonwealth, che oggi vengono manipolati fino a Wikipedia e Reddit, partendo da fonti esterne. Per le aziende tecnologiche, soprattutto quelle che hanno difficoltà a raggiungere fonti di dati molto comuni come gli archivi dati tradizionali, la creazione di modelli basati sull'intelligenza artificiale può rappresentare una soluzione alternativa, che in questi casi potrebbe rivelarsi piuttosto auspicabile.
Le aziende del settore tecnologico indicano che la raccolta dati è necessaria per l'addestramento dell'IA, mentre lo stesso processo è in discussione in tribunale. A loro difesa, OpenAI e Microsoft hanno vinto un'accusa di utilizzo illegale di materiale protetto da copyright nei loro confronti. Tuttavia, hanno affermato che le loro azioni rientravano nel principio giuridico del fair use. Negli ultimi anni, il numero di domande presentate all'Ufficio per il Copyright degli Stati Uniti dai titolari di copyright ha superato le 10.000, il che dimostra chiaramente che la legge sul copyright nell'era dell'IA è unica e innovativa. Di conseguenza, i principali attori si trovano sempre ad affrontare i pericoli legati alla violazione di molte opere, con il pretesto che non vi siano scopi coperti da licenza per i modelli che utilizzano l'IA su questa base.
L'imperativo per set di dati massicci
Nel complesso, il lavoro di Kaipan, de Jared, scienziato di grande portata, è stato involontariamente epico nello sviluppo dell'intelligenza artificiale. I contenuti basati sui dati sono una delle componenti dell'intelligenza artificiale necessarie per il processo di formazione, ma non possono funzionare bene senza modelli ben addestrati e funzionanti in modo efficace. Con l'aumento delle tecnologie di intelligenza artificiale, la domanda di dati per avere successo sul mercato aumenta a un ritmo elevato, lasciando le aziende con interrogativi legati a leggi, etica e privacy. Pertanto, gli algoritmi di intelligenza artificiale devono utilizzare questi set di dati per avere successo sul mercato.
Il comportamento di raccolta dati dei VIP viene sfigurato per dell'intelligenza artificiale ; il tipico giuramento metodologico viene reso più volgare. Che si tratti di uno dei loro interventi su YouTube o della creazione di dati sintetici generativi, queste aziende sono leader nella missione di scoprire quali siano realmente i problemi di legge, etica e privacy.
Potrebbero diventare una barzelletta in mare in futuro. A causa dell'emergere di enormi quantità di dati necessari per guidare il processo di innovazione, i leader della società sono tenuti a partecipare attivamente a un dialogo costruttivo per sviluppare regole e standard in cui gli sforzi di innovazione siano bilanciati con i principi etici dei diritti di proprietà intellettuale e della privacy.
Articolo originale da: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
Vuoi che il tuo progetto venga presentato ai più grandi esperti del settore crypto? Presentalo nel nostro prossimo report di settore, dove i dati incontrano l'impatto.

