ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

A Meta afirma que a previsão de múltiplos tokens triplica a velocidade do modelo de IA

PorAamir SheikhAamir Sheikh
Tempo de leitura: 2 minutos
Previsão de múltiplos tokens
  • Um estudo realizado por meta-pesquisadores demonstra que previsões com múltiplos tokens podem aumentar o desempenho dos Modelos de Aprendizagem Linear (LLMs).
  • A técnica envolve o uso de múltiplas cabeças de saída para fazer previsões simultaneamente.
  • Não requer custos adicionais de memória ou tempo, pois o processo utiliza a mesma arquitetura básica de inferência.

Treinar modelos de linguagem para prever vários tokens simultaneamente resulta em melhor eficiência de amostragem, afirmam pesquisadores da Meta.

Modelos de linguagem de grande porte, como Llama e ChatGPT, geralmente são treinados para a previsão do próximo token, mas com essa nova abordagem, é possível alcançar um desempenho melhor.

O que é a técnica de previsão de token único?

A técnica de predição multi-token oferece uma vantagem significativa em alguns cenários, com velocidade três vezes maior que a de tarefas generativas, mas ainda não é uma solução universal para todos os tipos de modelo. A técnica ainda tem bastante espaço para melhorias e, para algumas aplicações de aprendizado de máquina, pode se tornar uma ferramenta robusta.

Para uma compreensão mais clara, pode-se dizer que o processo tradicional de treinamento de LLM utiliza uma abordagem chamada "previsão do próximo token", na qual o modelo prevê apenas o próximo token em uma determinada sequência.

Em um processo automatizado, o token previsto é adicionado à entrada, e o processo é repetido diversas vezes ao longo de todo o texto fornecido, para que o modelo aprenda os padrões comuns e desenvolva a capacidade de produzir uma saída composta por texto lógico e consistente.

Essa técnica apresenta algumas desvantagens, pois, ao processar apenas o próximo token, o modelo fica muito focado nos padrões locais do texto e ignora as previsões que só podem ser feitas por meio do raciocínio.

Outro problema dessa técnica é que ela exige enormes quantidades de dados para alimentar o modelo e alcançar o fluxo normal de produção de linguagem que os humanos conseguem com muito pouco texto.

A previsão de múltiplos tokens permite uma velocidade 3 vezes maior

Fonte: Meta.

Na nova abordagem de múltiplos tokens sugerida por Meta, o LLM é instruído a prever múltiplos tokens de diferentes posições simultaneamente durante o processo de treinamento. Os pesquisadores utilizaram uma arquitetura de predição simples para a predição de múltiplos tokens, que não requer recursos adicionais como tempo e memória de processamento.

Os pesquisadores utilizaram a mesma arquitetura Transformer já usada pela maioria dos LLMs, mas fizeram algumas alterações para acomodar a previsão de múltiplos tokens, aumentando o número de cabeçalhos de saída de único para múltiplos e alocando um para cada token.

Dessa forma, para tirar conclusões e fazer previsões, o modelo utiliza a mesma estratégia básica de previsão subsequente, mas, ao empregar múltiplas cabeças, consegue acelerar o processo. O estudo de pesquisa afirma:

“Embora seja gratuita e simples, a previsão com múltiplos tokens é uma modificação eficaz para treinar modelos Transformertrone rápidos.”

Fonte: Meta.

Durante o estudo, os pesquisadores descobriram que a técnica produzia resultados abaixo do esperado quando usada em modelos menores, mas os resultados melhoravam em relação à média quando o mesmo processo era aplicado a modelos maiores, e continuavam a melhorar com o tamanho do modelo. Como afirma o estudo,

“O método é cada vez mais útil para modelos de tamanhos maiores e mantém seu atrativo mesmo em treinamentos com múltiplas épocas. Os ganhos são especialmente expressivos em benchmarks generativos, como programação, onde nossos modelos consistentemente superam linhas de basetronem vários pontos percentuais.”

Fonte: Meta.

Os pesquisadores também afirmaram que a técnica de previsão de múltiplos tokens torna o modelo três vezes mais rápido na produção de resultados lógicos, o que é útil com a vantagem de não haver custo adicional ou de um custo adicional muito baixo.

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Aamir Sheikh

Aamir Sheikh

Aamir é um jornalista de tecnologia com quase seis anos de experiência nos setores de criptomoedas e tecnologia. Ele se formou na MAJ University com um MBA em Finanças e Marketing. Atualmente, trabalha na Cryptopolitan, onde reporta sobre os últimos acontecimentos nos mercados de criptomoedas e previsões de preços.

MAIS… NOTÍCIAS
CURSO INTENSIVO DE CRIPTOMOEDAS AVANÇADAS