Google e Harvard lanciano un set di dati con 1 milione di libri di pubblico dominio per la formazione sull'intelligenza artificiale

Enacy Mapakame

Tempo di lettura: 2 minuti. 12 dicembre 2024.

L'iniziativa migliorerà l'accesso a maggiori informazioni da parte delle aziende di intelligenza artificiale per addestrare i propri modelli.
OpenAI e Microsoft hanno finanziato il progetto Harvard.
Si tratta di quasi un milione di libri che spaziano tra i generi e sono stati scansionati nell'ambito del programma Google Libri.

L'Università di Harvard, in collaborazione con Google, ha pubblicato un set di dati di un milione di libri di pubblico dominio per addestrare la prossima generazione di intelligenza artificiale.

I libri spaziano tra generi, lingue e autori come Dickens, Dante e Shakespeare, che non sono più protetti da copyright a causa della loro età. La nuova iniziativa sui set di dati nasce in un momento in cui i dati di addestramento dell'intelligenza artificiale sono naturalmente costosi e più adatti alle aziende tecnologiche con disponibilità finanziarie elevate.

Harvard ha ottenuto il sostegno finanziario dei giganti della tecnologia

Secondo un articolo di TechCrunch, l'iniziativa è guidata dalla Institutional Data Initiative (IDI) di Harvard. Questa iniziativa comprende libri derivati dal progetto di digitalizzazione di libri di Google, Google Books.

Altri libri contenuti nel set di dati includono libri di testo di matematica cechi e dizionari tascabili gallesi.

L'università aveva anticipato l'IDI a marzo, dichiarando chiaramente i suoi piani per creare un "canale affidabile per i dati legali destinati all'intelligenza artificiale". Da allora, non se ne è più saputo molto fino al lancio ufficiale di giovedì, quando i giganti della tecnologia Microsoft e OpenAI hanno finanziato il progetto.

Il set di dati non è riservato esclusivamente alla Silicon Valley, ma l'IDI lo ha aperto a chiunque, dai laboratori di ricerca alle startup di intelligenza artificiale che desiderano addestrare i propri modelli linguistici di grandi dimensioni.

Aprendo il set di dati a chiunque, il direttore esecutivo dell'IDI Greg Leppert ha affermato che lo scopo del set di dati è quello di livellare il campo di gioco, in un momento in cui il costo della formazione dell'intelligenza artificiale rimane elevato e proibitivo per le aziende più piccole, rendendolo appannaggio esclusivo di quelle con budget ingenti.

Leppert ha aggiunto che il set di dati è stato "rigorosamente rivisto", il che, secondo Fudzilla, presumibilmente significa che qualcuno ha controllato per assicurarsi che Bard se ne fosse davvero andato e non fosse più di mezzo.

Il set di dati di Harvard avrà bisogno di più risorse

Secondo Leppert, che ha paragonato il potenziale del dataset a quello di Linux, il sistema operativo open source, il successo del dataset di Harvard dipenderà da una serie di variabili. Leppert ha affermato che il suo successo richiederà più risorse, competenze e un "tocco di magia" da parte di quelle stesse aziende con un portafoglio ricco che l'iniziativa intende sfidare.

Il milione di libri contenuti nel dataset sono stati scansionati nell'ambito del programma Google Libri. Fudzilla descrive l'iniziativa come una capsula del tempo digitale risalente a un'epoca in cui le ambizioni di Google di scansionare ogni libro sembravano più bizzarre che distopiche.

Tuttavia, Leppert è ottimista sui potenziali utilizzi del progetto, suggerendo inoltre che potrebbe rivelarsi una vera e propria miniera d'oro per aiutare ad addestrare modelli di intelligenza artificiale per tutti, dalle startup in garage ai conglomerati aziendali.

Mentre alcuni hanno elogiato l'iniziativa come un rivoluzionario passo avanti nella democratizzazione dell'intelligenza artificiale, Fudzilla ritiene che alcuni potrebbero vederla come un modo subdolo per garantire che qualsiasi ambizioso nuovo arrivato con pochi terabyte di spazio sul server possa ora competere in una corsa per sviluppare il prossimo ChatGPT.

Tuttavia, avranno bisogno di maggiori risorse per competere e dent sul mercato. ChatGPT è stato lanciato a novembre 2022 con un successo immediato, che ha stimolato la corsa ai modelli di intelligenza artificiale generativa in tutto il mondo. Tuttavia, lo sviluppo di questi modelli ha creato una sete di dati per perfezionarli e questo desiderio di maggiori dati ha causato problemi sulla quantità di informazioni che è possibile ottenere senza rubarle.

Finora, editori come il Wall Street Journal e il New York Times hanno fatto causa a OpenAI e Perplexity per aver utilizzato i loro dati senza autorizzazione.

Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

Google

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Enacy Mapakame

Enacy Mapakame è una giornalista con oltre 10 anni di esperienza nel settore economico e finanziario. Si occupa di mercati dei capitali e tecnologie emergenti: metaverso, intelligenza artificiale e criptovalute. Enacy ha conseguito una laurea triennale in Media e Studi sulla Società con lode.

INDICE

1. Harvard ha ottenuto il sostegno finanziario dei giganti della tecnologia

2. Il set di dati di Harvard avrà bisogno di più risorse

Condividi questo articolo