Как утверждают исследователи из Meta, обучение языковых моделей прогнозированию нескольких токенов одновременно приводит к повышению эффективности использования выборки.
Крупные языковые модели, такие как Llama и ChatGPT, обычно обучаются для предсказания следующего токена, но с помощью этого нового подхода можно добиться лучших результатов.
Что такое метод прогнозирования по одному токену?
Метод прогнозирования с использованием нескольких токенов обеспечивает значительное преимущество в некоторых сценариях, превосходя по скорости генеративные задачи в три раза, но он все еще не является универсальным решением для всех типов моделей. Этот метод имеет значительный потенциал для улучшения, и для некоторых приложений LLM он может стать надежным инструментом.
Для более ясного понимания можно сказать, что традиционный процесс обучения LLM использует подход, называемый «прогнозирование следующего токена», и таким образом модель прогнозирует только следующий токен в заданной последовательности.
В автоматизированном процессе предсказанный токен добавляется к входным данным, и этот процесс повторяется снова и снова для всего предоставленного текстового ввода, чтобы модель изучила общие закономерности и развила способность выдавать на выходе логичный и последовательный текст.
У этого метода есть некоторые недостатки, поскольку, обрабатывая только следующий токен, модель слишком фокусируется на локальных закономерностях в тексте и игнорирует предсказания, которые можно сделать только с помощью логических рассуждений.
Ещё одна проблема этого метода заключается в том, что для достижения обычного потока языкового вывода, который человек может воспроизвести с помощью очень небольшого количества текста, в модель необходимо подавать огромные объёмы данных.
Прогнозирование с использованием нескольких токенов обеспечивает трехкратную скорость

В новом подходе к обработке нескольких токенов, предложенном Meta, LLM получает указание одновременно предсказывать несколько токенов из разных позиций в процессе обучения. Исследователи использовали простую архитектуру предсказания для обработки нескольких токенов, которая не требует дополнительных ресурсов, таких как время и память.
Исследователи использовали ту же архитектуру Transformer, которая уже используется в большинстве LLM-систем, но внесли некоторые изменения для обеспечения возможности прогнозирования нескольких токенов, увеличив количество выходных сигналов с одного до нескольких и выделив по одному на каждый токен.
Таким образом, для формулирования выводов и прогнозирования модель использует ту же базовую стратегию прогнозирования следующего шага, но за счет использования нескольких источников она может ускорить процесс. В исследовании говорится:
«Несмотря на свою простоту и бесплатность, прогнозирование с использованием нескольких токенов является эффективным способом обучения болееtronи быстрых моделей трансформеров»
Источник: Meta.
В ходе исследования ученые обнаружили, что при использовании этого метода на небольших моделях результаты были ниже среднего, но при применении того же процесса к более крупным моделям результаты становились лучше среднего, и улучшение результатов продолжалось с увеличением размера модели. Как говорится в исследовании,
«Этот метод становится все более полезным для моделей большего размера и сохраняет свою привлекательность при обучении в течение нескольких эпох. Особенно заметны улучшения на генеративных тестах, таких как программирование, где наши модели неизменно превосходятtronбазовые модели на несколько процентных пунктов»
Источник: Meta.
Исследователи также отметили, что метод прогнозирования с использованием нескольких токенов позволяет модели в три раза быстрее выдавать логические результаты, что полезно при минимальных или нулевых дополнительных затратах.

