Your bank is using your money. You’re getting the scraps.WATCH FREE

По данным Meta, прогнозирование нескольких токенов в три раза увеличивает скорость работы модели ИИ

В этом посте:

  • Исследование, проведенное мета-исследователями, показывает, что прогнозирование с использованием нескольких токенов может повысить эффективность LLM-моделей.
  • Данная методика предполагает использование нескольких выходных головок для одновременного выполнения прогнозов.
  • Это не требует дополнительных затрат памяти или времени, поскольку в процессе используется та же базовая архитектура вывода.

Как утверждают исследователи из Meta, обучение языковых моделей прогнозированию нескольких токенов одновременно приводит к повышению эффективности использования выборки.

Крупные языковые модели, такие как Llama и ChatGPT, обычно обучаются для предсказания следующего токена, но с помощью этого нового подхода можно добиться лучших результатов.

Что такое метод прогнозирования по одному токену?

Метод прогнозирования с использованием нескольких токенов обеспечивает значительное преимущество в некоторых сценариях, превосходя по скорости генеративные задачи в три раза, но он все еще не является универсальным решением для всех типов моделей. Этот метод имеет значительный потенциал для улучшения, и для некоторых приложений LLM он может стать надежным инструментом.

Для более ясного понимания можно сказать, что традиционный процесс обучения LLM использует подход, называемый «прогнозирование следующего токена», и таким образом модель прогнозирует только следующий токен в заданной последовательности.

В автоматизированном процессе предсказанный токен добавляется к входным данным, и этот процесс повторяется снова и снова для всего предоставленного текстового ввода, чтобы модель изучила общие закономерности и развила способность выдавать на выходе логичный и последовательный текст.

У этого метода есть некоторые недостатки, поскольку, обрабатывая только следующий токен, модель слишком фокусируется на локальных закономерностях в тексте и игнорирует предсказания, которые можно сделать только с помощью логических рассуждений.

См. также:  Apple потеряет 3 триллиона долларов и приостановит производство iPhone, поскольку Азия и ЕС готовят войну против крупных технологических компаний.

Ещё одна проблема этого метода заключается в том, что для достижения обычного потока языкового вывода, который человек может воспроизвести с помощью очень небольшого количества текста, в модель необходимо подавать огромные объёмы данных.

Прогнозирование с использованием нескольких токенов обеспечивает трехкратную скорость

Источник: Meta.

В новом подходе к обработке нескольких токенов, предложенном Meta, LLM получает указание одновременно предсказывать несколько токенов из разных позиций в процессе обучения. Исследователи использовали простую архитектуру предсказания для обработки нескольких токенов, которая не требует дополнительных ресурсов, таких как время и память.

Исследователи использовали ту же архитектуру Transformer, которая уже используется в большинстве LLM-систем, но внесли некоторые изменения для обеспечения возможности прогнозирования нескольких токенов, увеличив количество выходных сигналов с одного до нескольких и выделив по одному на каждый токен.

Таким образом, для формулирования выводов и прогнозирования модель использует ту же базовую стратегию прогнозирования следующего шага, но за счет использования нескольких источников она может ускорить процесс. В исследовании говорится:

«Несмотря на свою простоту и бесплатность, прогнозирование с использованием нескольких токенов является эффективным способом обучения болееtronи быстрых моделей трансформеров»

Источник: Meta.

В ходе исследования ученые обнаружили, что при использовании этого метода на небольших моделях результаты были ниже среднего, но при применении того же процесса к более крупным моделям результаты становились лучше среднего, и улучшение результатов продолжалось с увеличением размера модели. Как говорится в исследовании,

«Этот метод становится все более полезным для моделей большего размера и сохраняет свою привлекательность при обучении в течение нескольких эпох. Особенно заметны улучшения на генеративных тестах, таких как программирование, где наши модели неизменно превосходятtronбазовые модели на несколько процентных пунктов»

Источник: Meta.

Исследователи также отметили, что метод прогнозирования с использованием нескольких токенов позволяет модели в три раза быстрее выдавать логические результаты, что полезно при минимальных или нулевых дополнительных затратах.

См. также:  Инициатива Microsoft в области искусственного интеллекта решает проблему языковых барьеров в Индии.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделиться ссылкой:

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtrondentdentdentdentdentdentdentdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Подпишитесь на Cryptopolitan Daily и получайте своевременные, точные и актуальные аналитические материалы о криптовалютах прямо на свою электронную почту.

Присоединяйтесь прямо сейчас и
ничего не пропустите.

Заходите. Получайте достоверную информацию.
Опережайте события.

Подпишитесь на CryptoPolitan