ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

По данным Meta, прогнозирование нескольких токенов в три раза увеличивает скорость работы модели ИИ

КАамир ШейхАамир Шейх
2 минуты чтения,
Прогнозирование мультитокенов
  • Исследование, проведенное мета-исследователями, показывает, что прогнозирование с использованием нескольких токенов может повысить эффективность LLM-моделей.
  • Данная методика предполагает использование нескольких выходных головок для одновременного выполнения прогнозов.
  • Это не требует дополнительных затрат памяти или времени, поскольку в процессе используется та же базовая архитектура вывода.

Как утверждают исследователи из Meta, обучение языковых моделей прогнозированию нескольких токенов одновременно приводит к повышению эффективности использования выборки.

Крупные языковые модели, такие как Llama и ChatGPT, обычно обучаются для предсказания следующего токена, но с помощью этого нового подхода можно добиться лучших результатов.

Что такое метод прогнозирования по одному токену?

Метод прогнозирования с использованием нескольких токенов обеспечивает значительное преимущество в некоторых сценариях, превосходя по скорости генеративные задачи в три раза, но он все еще не является универсальным решением для всех типов моделей. Этот метод имеет значительный потенциал для улучшения, и для некоторых приложений LLM он может стать надежным инструментом.

Для более ясного понимания можно сказать, что традиционный процесс обучения LLM использует подход, называемый «прогнозирование следующего токена», и таким образом модель прогнозирует только следующий токен в заданной последовательности.

В автоматизированном процессе предсказанный токен добавляется к входным данным, и этот процесс повторяется снова и снова для всего предоставленного текстового ввода, чтобы модель изучила общие закономерности и развила способность выдавать на выходе логичный и последовательный текст.

У этого метода есть некоторые недостатки, поскольку, обрабатывая только следующий токен, модель слишком фокусируется на локальных закономерностях в тексте и игнорирует предсказания, которые можно сделать только с помощью логических рассуждений.

Ещё одна проблема этого метода заключается в том, что для достижения обычного потока языкового вывода, который человек может воспроизвести с помощью очень небольшого количества текста, в модель необходимо подавать огромные объёмы данных.

Прогнозирование с использованием нескольких токенов обеспечивает трехкратную скорость

Источник: Meta.

В новом подходе к обработке нескольких токенов, предложенном Meta, LLM получает указание одновременно предсказывать несколько токенов из разных позиций в процессе обучения. Исследователи использовали простую архитектуру предсказания для обработки нескольких токенов, которая не требует дополнительных ресурсов, таких как время и память.

Исследователи использовали ту же архитектуру Transformer, которая уже используется в большинстве LLM-систем, но внесли некоторые изменения для обеспечения возможности прогнозирования нескольких токенов, увеличив количество выходных сигналов с одного до нескольких и выделив по одному на каждый токен.

Таким образом, для формулирования выводов и прогнозирования модель использует ту же базовую стратегию прогнозирования следующего шага, но за счет использования нескольких источников она может ускорить процесс. В исследовании говорится:

«Несмотря на свою простоту и бесплатность, прогнозирование с использованием нескольких токенов является эффективным способом обучения болееtronи быстрых моделей трансформеров»

Источник: Meta.

В ходе исследования ученые обнаружили, что при использовании этого метода на небольших моделях результаты были ниже среднего, но при применении того же процесса к более крупным моделям результаты становились лучше среднего, и улучшение результатов продолжалось с увеличением размера модели. Как говорится в исследовании,

«Этот метод становится все более полезным для моделей большего размера и сохраняет свою привлекательность при обучении в течение нескольких эпох. Особенно заметны улучшения на генеративных тестах, таких как программирование, где наши модели неизменно превосходятtronбазовые модели на несколько процентных пунктов»

Источник: Meta.

Исследователи также отметили, что метод прогнозирования с использованием нескольких токенов позволяет модели в три раза быстрее выдавать логические результаты, что полезно при минимальных или нулевых дополнительных затратах.

Если вы это читаете, значит, вы уже впереди. Оставайтесь на шаг впереди, подписавшись на нашу рассылку.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Аамир Шейх

Аамир Шейх

Аамир — технологический журналист с почти шестилетним опытом работы в крипто- и технологической индустриях. Он окончил университет MAJ со степенью MBA в области финансов и маркетинга. Сейчас он работает в Cryptopolitan, где освещает последние события на криптовалютных рынках и прогнозирует цены.

ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- КУРС ПО ГЛУБОКОЙ КРИПТОГРАФИИ