Secondo i ricercatori di Meta, addestrare i modelli linguistici a prevedere più token contemporaneamente si traduce in una migliore efficienza del campione.
I modelli linguistici di grandi dimensioni come Llama e ChatGPT vengono solitamente addestrati per la successiva previsione del token, ma con questo nuovo approccio è possibile ottenere prestazioni migliori.
Che cos'è la tecnica di previsione a token singolo?
La tecnica di predizione multi-token offre un vantaggio significativo in alcuni scenari, con una velocità tre volte superiore a quella delle attività generative, ma non è ancora una soluzione universale per ogni tipo di modello. La tecnica ha ampi margini di miglioramento e, per alcune applicazioni LLM, può diventare uno strumento affidabile.
Per una comprensione più chiara, si può dire che il processo tradizionale per la formazione LLM utilizza un approccio chiamato "previsione del token successivo" e in questo modo un modello prevede solo il token futuro successivo in una data sequenza.
In un processo automatizzato, il token previsto viene aggiunto all'input e il processo viene ripetuto più e più volte sull'intero input di testo fornito, in modo che il modello apprenda i modelli comuni e sviluppi la capacità di produrre un output costituito da testo logico e coerente.
Questa tecnica presenta alcuni svantaggi, poiché elaborando solo il token successivo, il modello si concentra troppo sui modelli locali nel testo e ignora le previsioni che possono essere fatte solo con il ragionamento.
Un altro problema di questa tecnica è che richiede l'immissione di enormi quantità di set di dati nel modello per raggiungere il normale flusso di output linguistico che gli esseri umani possono elaborare con pochissimo testo.
La previsione multi-token consente una velocità 3 volte superiore

Nel nuovo approccio multi-token proposto da Meta, l'LLM viene incaricato di predire più token da posizioni diverse contemporaneamente durante il processo di addestramento. I ricercatori hanno utilizzato un'architettura di predizione semplice per la previsione multi-token che non richiede risorse aggiuntive come tempo e memoria di elaborazione.
I ricercatori hanno utilizzato la stessa architettura Transformer già utilizzata dalla maggior parte degli LLM, ma hanno apportato alcune modifiche per supportare la previsione di più token, aumentando le teste di output da singole a multiple e assegnandone una a ciascun token.
In questo modo, per trarre conclusioni e fare previsioni, il modello utilizza la stessa strategia di base per la previsione successiva, ma utilizzando più teste, può accelerare il processo. Lo studio di ricerca afferma:
"Sebbene sia gratuita e semplice, la previsione multi-token è una modifica efficace per addestrare modelli di trasformatoritrone veloci."
Fonte: Meta.
Durante lo studio, i ricercatori hanno scoperto che la tecnica produceva risultati mediocri quando veniva utilizzata su modelli più piccoli, ma i risultati diventavano migliori della media quando lo stesso processo veniva applicato a modelli più grandi, e continuavano a migliorare con le dimensioni del modello. Come si legge nello studio,
"Il metodo è sempre più utile per modelli di dimensioni maggiori e mantiene il suo appeal anche durante l'addestramento per epoche multiple. I miglioramenti sono particolarmente evidenti nei benchmark generativi come la codifica, dove i nostri modelli superano costantemente le prestazioni di baselinetrondi diversi punti percentuali."
Fonte: Meta.
I ricercatori hanno inoltre affermato che la tecnica di previsione multi-token rende il modello tre volte più veloce nel produrre risultati logici, il che è utile con il vantaggio di non avere costi aggiuntivi o di averne pochissimi.

