Le aziende di intelligenza artificiale si affidano a editori premium per i dati di formazione, secondo una nuova ricerca

- OpenAI e Google, importanti aziende di intelligenza artificiale, utilizzano articoli provenienti dai principali canali editoriali per addestrare modelli linguistici.
- Secondo uno studio condotto da Ziff Davis, le fonti vengono filtrate in base alla classifica delle ricerche.
- Gli editori temono che le aziende di intelligenza artificiale utilizzino i loro contenuti senza autorizzazione.
Le principali aziende tecnologiche, tra cui OpenAI, Google, Meta e Anthropic, si affidano a materiale di alta qualità e protetto da copyright, proveniente da editori di spicco, per addestrare i loro modelli linguistici di grandi dimensioni (LLM).
Questo è quanto emerge da uno studio condotto da Ziff Davis, la società madre di CNET, IGN e Mashable, che dimostra il ruolo essenziale dei contenuti di alta qualità nell'addestramento di questi modelli di intelligenza artificiale. Lo studio evidenzia come le aziende che si occupano di IA prediligano fonti autorevoli per i set di dati di addestramento al fine di migliorare le prestazioni dei modelli, ma il contributo di tali fonti viene spesso trascurato.
Nella ricerca, George Wukoson, avvocato specializzato in intelligenza artificiale presso Ziff Davis, e Joey Fortuna, Chief Technology Officer, hanno affermato che le aziende di intelligenza artificiale scelgono i dati di addestramento in base al posizionamento di siti web autorevoli con un buon posizionamento nei motori di ricerca. Per migliorare i modelli, sono stati scelti siti web di alta qualità e popolari, poiché godono di una buona reputazione. Una strategia che, secondo lo studio, consente agli sviluppatori di intelligenza artificiale di perfezionare il modello linguistico.
Ziff Davis ha sottolineato che fornitori di contenuti di alto livello come Axel Springer, Future PLC, Hearst, News Corp e The New York Times, tra gli altri, hanno contribuito allo sviluppo di set di dati di training. In particolare, è statodentche il 12,04% di OpenWebText2, utilizzato per la creazione del GPT-3 di OpenAI, proveniva da questi editori affidabili.
Anche Mark Zuckerberg è intervenuto nel dibattito in corso sull'utilizzo dei contenuti nell'addestramento dell'IA. In una recente intervista con The Verge, Zuckerberg ha riconosciuto che la raccolta di dati per l'IA è complessa, ma ha anche sottolineato che i contenuti dei singoli creatori o editori potrebbero non avere un impatto così rilevante. Ha affermato: "Credo che i singoli creatori o editori tendano a sovrastimare il valore dei loro specifici contenuti nel quadro generale".
Gli editori intentano cause legali contro le aziende di intelligenza artificiale
La segretezza che circonda le fonti dei dati di formazione ha sollevato preoccupazioni sia tra gli editori che tra i consumatori. Il New York Times e il Wall Street Journal hanno recentemente intentato cause legali contro le aziende di intelligenza artificiale, sostenendo che hanno violato le leggi sul copyright utilizzando i loro contenuti.
Sebbene OpenAI abbia compiuto progressi significativi nell'ottenere licenze per i contenuti da organizzazioni mediatiche come il Financial Times e DotDash Meredith, diverse aziende di intelligenza artificiale operano ancora senza le dovute licenze. Il rapporto afferma inoltre che "i principali sviluppatori di LLM non divulgano più i dati di addestramento come facevano in passato".
Mentre il valore delle aziende di intelligenza artificiale aumenta, il divario tra i titani della tecnologia e le aziende di media tradizionali rimane ampio. Giganti della tecnologia come Google e Meta, il cui valore stimato è rispettivamente di 2,2 trilioni e 1,5 trilioni di dollari, rimangono all'avanguardia nell'intelligenza artificiale generativa, mentre startup come OpenAI e Anthropic hanno un valore rispettivamente di 157 miliardi e 40 miliardi di dollari.
D'altro canto, gli editori sono ancora alle prese con licenziamenti e ristrutturazioni, a dimostrazione della pressione finanziaria derivante dall'adattamento a un ambiente sempre più defidall'intelligenza artificiale. A causa della concorrenza con contenuti generati dagli utenti e basati sull'intelligenza artificiale, numerosi editori si trovano ad affrontare sfide in termini di riduzione dei costi e del personale.
Se stai leggendo questo, sei già un passo avanti. Rimani al passo con i tempi iscrivendoti alla nostra newsletter.
Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Brenda Kanana
Brenda vanta oltre 4 anni di esperienza specializzata in criptovalute, intelligenza artificiale e tecnologie emergenti. Ha lavorato presso Zycrypto, Blockchain Reporter, The Coin Republic e ora collabora con Cryptopolitan . La sua laurea in Sociologia conseguita presso la Mombasa Technical University le permette di rimanere in sintonia con le esigenze dei suoi lettori.
- Quali criptovalute possono farti guadagnare
- Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
- Strategie di investimento poco conosciute utilizzate dai professionisti
- Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)















