ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

La previsione multi-token aumenta la velocità del modello AI di tre volte, afferma Meta

DiAamir SheikhAamir Sheikh
Tempo di lettura: 2 minuti.
Previsione multi-token
  • Uno studio di ricerca condotto da meta-ricercatori dimostra che le previsioni multi-token possono aumentare le prestazioni degli LLM.
  • La tecnica prevede l'utilizzo di più testine di uscita per effettuare previsioni simultaneamente.
  • Non richiede costi aggiuntivi in ​​termini di memoria o tempo, poiché il processo utilizza la stessa architettura di inferenza di base.

Secondo i ricercatori di Meta, addestrare i modelli linguistici a prevedere più token contemporaneamente si traduce in una migliore efficienza del campione.

I modelli linguistici di grandi dimensioni come Llama e ChatGPT vengono solitamente addestrati per la successiva previsione del token, ma con questo nuovo approccio è possibile ottenere prestazioni migliori.

Che cos'è la tecnica di previsione a token singolo?

La tecnica di predizione multi-token offre un vantaggio significativo in alcuni scenari, con una velocità tre volte superiore a quella delle attività generative, ma non è ancora una soluzione universale per ogni tipo di modello. La tecnica ha ampi margini di miglioramento e, per alcune applicazioni LLM, può diventare uno strumento affidabile.

Per una comprensione più chiara, si può dire che il processo tradizionale per la formazione LLM utilizza un approccio chiamato "previsione del token successivo" e in questo modo un modello prevede solo il token futuro successivo in una data sequenza.

In un processo automatizzato, il token previsto viene aggiunto all'input e il processo viene ripetuto più e più volte sull'intero input di testo fornito, in modo che il modello apprenda i modelli comuni e sviluppi la capacità di produrre un output costituito da testo logico e coerente.

Questa tecnica presenta alcuni svantaggi, poiché elaborando solo il token successivo, il modello si concentra troppo sui modelli locali nel testo e ignora le previsioni che possono essere fatte solo con il ragionamento.

Un altro problema di questa tecnica è che richiede l'immissione di enormi quantità di set di dati nel modello per raggiungere il normale flusso di output linguistico che gli esseri umani possono elaborare con pochissimo testo.

La previsione multi-token consente una velocità 3 volte superiore

Fonte: Meta.

Nel nuovo approccio multi-token proposto da Meta, l'LLM viene incaricato di predire più token da posizioni diverse contemporaneamente durante il processo di addestramento. I ricercatori hanno utilizzato un'architettura di predizione semplice per la previsione multi-token che non richiede risorse aggiuntive come tempo e memoria di elaborazione.

I ricercatori hanno utilizzato la stessa architettura Transformer già utilizzata dalla maggior parte degli LLM, ma hanno apportato alcune modifiche per supportare la previsione di più token, aumentando le teste di output da singole a multiple e assegnandone una a ciascun token.

In questo modo, per trarre conclusioni e fare previsioni, il modello utilizza la stessa strategia di base per la previsione successiva, ma utilizzando più teste, può accelerare il processo. Lo studio di ricerca afferma:

"Sebbene sia gratuita e semplice, la previsione multi-token è una modifica efficace per addestrare modelli di trasformatoritrone veloci."

Fonte: Meta.

Durante lo studio, i ricercatori hanno scoperto che la tecnica produceva risultati mediocri quando veniva utilizzata su modelli più piccoli, ma i risultati diventavano migliori della media quando lo stesso processo veniva applicato a modelli più grandi, e continuavano a migliorare con le dimensioni del modello. Come si legge nello studio,

"Il metodo è sempre più utile per modelli di dimensioni maggiori e mantiene il suo appeal anche durante l'addestramento per epoche multiple. I miglioramenti sono particolarmente evidenti nei benchmark generativi come la codifica, dove i nostri modelli superano costantemente le prestazioni di baselinetrondi diversi punti percentuali."

Fonte: Meta.

I ricercatori hanno inoltre affermato che la tecnica di previsione multi-token rende il modello tre volte più veloce nel produrre risultati logici, il che è utile con il vantaggio di non avere costi aggiuntivi o di averne pochissimi.

Se stai leggendo questo, sei già un passo avanti. Rimani al passo con i tempi iscrivendoti alla nostra newsletter.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Aamir Sheikh

Aamir Sheikh

Aamir è un giornalista tecnologico con quasi sei anni di esperienza nel settore delle criptovalute e della tecnologia. Si è laureato alla MAJ University con un MBA in Finanza e Marketing. Attualmente lavora per Cryptopolitan, dove si occupa di reportage sugli ultimi sviluppi dei mercati delle criptovalute e di previsioni sui prezzi.

ALTRE NOTIZIE
CORSO INTENSIVO DI CRIPTOVALUTE