ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

DeepSeek svela mHC ma si scontra con ostacoli nella revisione paritaria

DiEnacy MapakameEnacy Mapakame
Tempo di lettura: 3 minuti.
DeepSeek presenta mHC, ma incontra ostacoli nella revisione paritaria.
  • DeepSeek propone un nuovo modo per scalare l'intelligenza artificiale senza ulteriore potenza di calcolo.
  • I ricercatori ritengono che i risultati siano promettenti, ma avvertono che sono necessari ulteriori test.
  • mHC potrebbe rimodellare il modo in cui vengono addestrati i grandi modelli linguistici.

In un momento in cui si presentano problemi legati ai crescenti costi di sviluppo e manutenzione dell'intelligenza artificiale e alla quantità limitata di hardware disponibile, DeepSeek ha presentato un nuovo piano per lo sviluppo e la scalabilità dell'intelligenza artificiale (IA).

La startup cinese ritiene di poter creare modelli di intelligenza artificiale significativamente migliori senza dover necessariamente aggiungere più chip e quindi aumentare il consumo energetico. Sebbene il concetto di mHC proposto abbia suscitato notevole attenzione da parte di molti ricercatori del settore, è generalmente considerato ancora in fase iniziale.

Saranno necessarie ulteriori ricerche per determinare i vantaggi di questo approccio nello sviluppo di sistemi di intelligenza artificiale più ampi. La scorsa settimana è stato pubblicato un documento tecnico che descrive in dettaglio il concetto di mHC, scritto in collaborazione con Liang Wenfeng, fondatore e CEO di DeepSeek.

DeepSeek ripensa la progettazione della rete per scalare l'intelligenza artificiale

Uno degli elementi principali del lavoro è una rivalutazione del modo in cui le informazioni vengono trasferite tra i vari strati di una rete neurale multistrato.

Ogni strato di una rete neurale trasmette una forma di informazione elaborata allo strato successivo del modello, creando quella che è stata definita una "rete di apprendimento residuo" (ResNet). Sviluppate da Kaiming He di Microsoft Research e altri circa dieci anni fa, le ResNet hanno fornito le basi fondamentali per molti dei sistemi di intelligenza artificiale più avanzati di oggi.

Un concetto sviluppato da DeepSeek è stato creato dopo che ByteDance ha introdotto le iperconnessioni nel 2024. Le iperconnessioni consentono alle informazioni di percorrere più percorsi attraverso una rete, anziché un solo percorso principale, il che può aumentare la velocità di apprendimento e la ricchezza dell'esperienza.

Tuttavia, sebbene possano essere utili, possono anche portare a situazioni di addestramentomatic , in cui i modelli subiscono instabilità nell'addestramento o un fallimento completo.

Secondo Song Linqi (City University di Hong Kong), la ricerca di DeepSeek è un'evoluzione di un'idea esistente, una continuazione del modo in cui DeepSeek esamina il lavoro di altre aziende, anziché inventare qualcosa da zero.

ResNet viene paragonata a una superstrada a una sola corsia, mentre Hyper-Connections assomiglia a una superstrada a più corsie; tuttavia, Song ha avvertito che avere più corsie senza regole adeguate può portare a più collisioni.

Il professor Guo Song dell'Università di Scienza e Tecnologia di Hong Kong ritiene che questo articolo di ricerca possa indicare un cambiamento nel comportamento della ricerca sull'intelligenza artificiale. Invece di continuare ad apportare piccole modifiche ai modelli esistenti, ritiene che la ricerca possa evolversi verso lo sviluppo di nuovi modelli basati su costrutti teorici.

I ricercatori testano l'mHC ma sollevano preoccupazioni pratiche

Nonostante l'entusiasmo per il recente traguardo raggiunto nella sperimentazione di mHC per il deep learning, gli esperti hanno sottolineato che la ricerca non è ancora terminata. I test forniti da DeepSeek hanno utilizzato solo quattro percorsi di dati per testare modelli con 27 miliardi di parametri.

"Gli esperimenti hanno convalidato modelli fino a 27 miliardi di parametri, ma come si comporterebbero con i modelli di frontiera odierni, che sono di un ordine di grandezza più grandi?"

Professor Guo Song.

I modelli di intelligenza artificiale disponibili oggi sono più grandi e in genere hanno centinaia di miliardi di parametri, rispetto ai 30 miliardi di parametri che erano lo standard solo pochi anni fa.

Guo ha ribadito questi sentimenti e ha affermato che nessuno può ancora dire se mHC sarà in grado di svolgere un lavoro all'avanguardia della tecnologia dell'intelligenza artificiale. Ha inoltre affermato che l'infrastruttura necessaria al funzionamento di mHC potrebbe essere troppo avanzata per essere utilizzata da istituti di ricerca più piccoli e per essere utilizzata dalle aziende sui dispositivi mobili.

Secondo Cryptopolitan, la popolarità di DeepSeek è derivata dal rilascio del modello linguistico DeepSeek V3, e dal successivo rilascio del modello di ragionamento DeepSeek-R1 solo un paio di settimane dopo.

Confrontando i risultati dei modelli con quelli dei concorrenti durante i test di benchmark, entrambi i modelli sono riusciti a raggiungere o superare i risultati dei concorrenti nonostante fossero stati rilasciati utilizzando solo una frazione dei dati di addestramento utilizzati per gli altri modelli linguistici concorrenti.

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

Condividi questo articolo
ALTRE NOTIZIE
INTENSIVO CRIPTOVALUTE
CORSO