Your bank is using your money. You’re getting the scraps.WATCH FREE

DeepSeek rivela che il costo per l'addestramento del suo modello di intelligenza artificiale è stato di 294.000 dollari

In questo post:

  • Un'azienda cinese di intelligenza artificiale afferma che l'addestramento del suo modello è costato solo 294.000 dollari.
  • La cifra è ben al di sotto di quella dei concorrenti statunitensi, sollevando nuovi interrogativi nel settore.
  • DeepSeek nega di aver copiato i risultati dei modelli dei concorrenti.

La cinese DeepSeek ha affermato che il suo sistema di intelligenza artificiale di punta, noto come R1, è stato addestrato per soli 294.000 dollari, una frazione delle somme che si ritiene vengano spese dai concorrenti statunitensi.

I dettagli sono stati pubblicati questa settimana in un articolo sottoposto a revisione paritaria su Nature, e probabilmente alimenteranno ulteriormente il dibattito sulle ambizioni di Pechino nella corsa globale all'intelligenza artificiale. L'azienda con sede a Hangzhou ha affermato che il modello incentrato sul ragionamento è stato addestrato utilizzando 512 chip Nvidia H800. Questo hardware è stato progettato specificamente per la Cina dopo che gli Stati Uniti hanno vietato la vendita dei processori H100 e A100 più potenti.

Il documento, redatto in collaborazione con il fondatore Liang Wenfeng, segna la prima volta in cui l'azienda divulga tali costi.

DeepSeek utilizza una frazione del costo dei modelli statunitensi

A gennaio, il lancio degli strumenti di intelligenza artificiale più economici di DeepSeek ha destabilizzato i mercati globali, provocando una svendita di titoli tecnologici per il timore che potessero minare la posizione di colossi affermati come Nvidia e OpenAI.

Da allora, Liang e il suo team hanno mantenuto un basso profilo, facendosi notare solo per sporadici aggiornamenti dei prodotti.

Il prezzo dichiarato di 294.000 dollari è in netto contrasto con le stime delle aziende americane.

Nel 2023, l'amministratore delegato di OpenAI, Sam Altman, ha dichiarato: "Addestrare modelli fondamentali costa molto più di 100 milioni di dollari". Tuttavia, non ha fornito dettagli specifici.

L'addestramento di modelli linguistici di grandi dimensioni comporta l'utilizzo di banchi di chip potenti per periodi prolungati, con un consumo enorme di elettricità durante l'elaborazione di testo e codice. Gli osservatori del settore ritengono da tempo che il costo di tali progetti si aggiri sulle decine o addirittura sulle centinaia di milioni di dollari.

Questa ipotesi è ora messa in discussione e, in un documento supplementare, DeepSeek ha ammesso di possedere chip A100 e di averli utilizzati nelle fasi iniziali di sviluppo, prima di trasferire l'addestramento completo sul suo cluster H800. Secondo l'azienda tecnologica, il modello ha funzionato per 80 ore durante la fase di addestramento finale.

Vedi anche:  UBS implementa cloni di analisti basati sull'IA per soddisfare la domanda di contenuti video di investimento di breve formato in stile TikTok

Sebbene Nvidia abbia insistito sul fatto che la startup cinese abbia accesso solo ai suoi processori H800, i funzionari americani rimangono scettici. Qualche mese fa, fonti statunitensi hanno riferito a Reuters che DeepSeek possiede illegalmente grandi volumi di chip H100, soggetti a divieti di esportazione verso la Cina.

Mettere l'innovazione sotto la lente d'ingrandimento

R1 ha attirato l'attenzione non solo per i suoi bassi costi di formazione, ma anche perché potrebbe essere il primo modello importante a essere sottoposto a una revisione paritaria formale.

"Si tratta di undentmolto gradito e, se non abbiamo questa norma di condivisione, diventa molto difficile valutare i rischi", ha affermato Lewis Tunstall, un ingegnere di apprendimento automatico presso Hugging Face che ha esaminato l'articolo di Nature.

Il processo di revisione ha spinto DeepSeek a chiarire i dettagli tecnici, tra cui il modo in cui è stato addestrato il suo modello e quali misure di sicurezza sono state adottate.

"Sottoporsi a un rigoroso processo di revisione paritaria aiuta sicuramente a verificare la validità e l'utilità del modello", ha affermato Huan Sun, ricercatore di intelligenza artificiale presso l'Ohio State University.

La principale innovazione di DeepSeek è stata l'utilizzo di un approccio di apprendimento per rinforzo. Invece di basarsi su esempi di ragionamento curati da esseri umani, come riportato nell'articolo, il modello veniva premiato per la risoluzione corretta dei problemi e sviluppava gradualmente le proprie strategie di risoluzione.

L'azienda afferma che questo sistema basato su tentativi ed errori ha consentito a R1 di verificare il proprio funzionamento senza copiare le tattiche umane.

Vedi anche  Google collabora con uno sviluppatore di impianti solari sostenuto da BlackRock a Taiwan nel contesto del boom dell'IA

"Questo modello ha avuto una notevole influenza", ha aggiunto Sun. "Quasi tutti i lavori di apprendimento per rinforzo del 2025 potrebbero essere stati ispirati da R1 in un modo o nell'altro"

DeepSeek nega le accuse di copia

Subito dopo il rilascio di R1, si è diffusa l'ipotesi che DeepSeek si fosse appoggiata a risultati concorrenti, in particolare di OpenAI, per accelerare l'addestramento; tuttavia, l'azienda ha ora negato categoricamente tale accusa.

Nella corrispondenza con i revisori, DeepSeek ha insistito sul fatto che R1 non avesse copiato esempi di ragionamento generati da OpenAI. Tuttavia, come la maggior parte dei modelli linguistici di grandi dimensioni, è stato addestrato su testo online. Ciò significa che alcuni contenuti prodotti dall'IA sono stati inevitabilmente inclusi, e la spiegazione ha convinto alcuni revisori.

"Non posso essere sicuro al 100% che R1 non sia stato addestrato su esempi OpenAI. Tuttavia, i tentativi di replicazione da parte di altri laboratori suggeriscono che l'apprendimento per rinforzo sia sufficientemente valido di per sé", ha affermato Tunstall.

DeepSeek afferma che R1 è progettato per eccellere in compiti che richiedono un ragionamento approfondito, come la codifica e lamatic. A differenza della maggior parte dei sistemi chiusi sviluppati da aziende statunitensi, è stato rilasciato come modello open-weight, scaricabile gratuitamente dai ricercatori. Sul sito della community di intelligenza artificiale Hugging Face, è già stato scaricato più di 10 milioni di volte.

L'azienda ha speso circa 6 milioni di dollari per sviluppare il modello base su cui si basa la R1, ma anche con questa cifra, i suoi costi sono ben al di sotto delle cifre associate ai concorrenti. Per molti nel settore, questo rende la R1trac.

Sun e i suoi colleghi hanno recentemente testato il sistema su attività di elaborazione di dati scientifici e hanno scoperto che non era il più accurato, ma tra i migliori in termini di rapporto costo-prestazioni.

 

Se stai leggendo questo, sei già un passo avanti. Rimani al passo con i tempi iscrivendoti alla nostra newsletter.

Condividi link:

Disclaimer. Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandi declina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotrondentdentdentdentdentdentdentdent e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

I più letti

Caricamento degli articoli più letti...

Rimani aggiornato sulle novità in ambito criptovalute, ricevi aggiornamenti giornalieri nella tua casella di posta

Scelta dell'editore

Caricamento degli articoli scelti dall'editore...

- La newsletter Crypto che ti tiene al passo -

I mercati si muovono velocemente.

Ci muoviamo più velocemente.

Iscriviti a Cryptopolitan Daily e ricevi direttamente nella tua casella di posta elettronica informazioni tempestive, pertinenti e pertinenti sulle criptovalute.

Iscriviti subito e
non perderti nemmeno una mossa.

Entra. Scopri i fatti.
Vai avanti.

Iscriviti a CryptoPolitan