Amazon использует микросхемы Cerebras для ускорения работы моделей искусственного интеллекта на AWS

-
В рамках многолетнего соглашения об использовании чипов Cerebras в центрах обработки данных компания Amazon Web Services будет развертывать их в своих центрах обработки данных.
-
Данная конфигурация объединяет серверы Amazon Trainium, системы Cerebras CS-3 и сетевое оборудование EFA на платформе Amazon Bedrock.
-
Для ускорения ответов ИИ Amazon будет использовать Trainium для предварительного заполнения данных и Cerebras для их декодирования.
В пятницу компания Amazon Web Services заявила, что в рамках многолетнего партнерства, ориентированного на разработку решений для искусственного интеллекта, она разместит процессоры Cerebras в своих центрах обработки данных.
Эта сделка предоставляет Amazon новый способ ускорить обработку запросов от моделей ИИ, написание кода и обработку запросов пользователей в режиме реального времени. AWS заявила, что будет использовать технологию Cerebras, включая Wafer-Scale Engine, для задач вывода результатов.
Компании не разгласили финансовые условия. Планируется, что платформа будет размещена в центрах обработки данных AWS, принадлежащих Amazon Bedrock, что позволит использовать партнерство непосредственно в одном из основных продуктов Amazon в области искусственного интеллекта.
Компания AWS заявила, что система объединит серверы на базе Amazon Trainium, системы Cerebras CS-3 и сетевое оборудование Amazon Elastic Fabric Adapter.
В конце этого года AWS также планирует предложить ведущие модели обработки больших объемов данных с открытым исходным кодом и Amazon Nova на оборудовании Cerebras. Дэвид Браун, вице-dent по вычислительным и машинным сервисам AWS, отметил, что скорость по-прежнему остается серьезной проблемой в задачах вывода ИИ, особенно для помощи в программировании в реальном времени и интерактивных приложений.
Дэвид сказал: «Именно на этапе вывода ИИ приносит реальную пользу клиентам, но скорость остается критическим узким местом для ресурсоемких задач, таких как помощь в программировании в реальном времени и интерактивные приложения»
Amazon разделяет процессы предварительного заполнения и декодирования между отдельными чипами
В AWS заявили, что в данной разработке используется метод, называемый дезагрегацией вывода. Это означает разделение вывода ИИ на две части. Первая часть — это обработка подсказок, также называемая предварительным заполнением. Вторая часть — это генерация выходных данных, также называемая декодированием.
В AWS заявили, что эти две задачи ведут себя совершенно по-разному. Предварительное заполнение выполняется параллельно, требует больших вычислительных ресурсов и умеренной пропускной способности памяти. Декодирование выполняется последовательно, требует меньших вычислительных ресурсов и гораздо большеdent от пропускной способности памяти. Кроме того, декодирование занимает большую часть времени в этих случаях, поскольку каждый выходной токен должен быть создан по отдельности.
Именно поэтому AWS назначает разное оборудование для каждого этапа. Trainium будет отвечать за предварительное заполнение, а Cerebras CS-3 — за декодирование.
AWS заявила, что сеть EFA с низкой задержкой и высокой пропускной способностью соединит обе стороны, так что система сможет работать как единый сервис, в то время как каждый процессор будет сосредоточен на отдельной задаче.
Дэвид сказал: «То, что мы создаём с помощью Cerebras, решает эту проблему: разделяя рабочую нагрузку по инференции между Trainium и CS-3 и соединяя их с помощью адаптера Amazon Elastic Fabric, каждая система делает то, что у неё лучше всего получается. В результате инференция будет на порядок быстрее и производительнее, чем то, что доступно сегодня»
Компания AWS также сообщила, что сервис будет работать на платформе AWS Nitro System, которая является базовым уровнем для ее облачной инфраструктуры.
Это означает, что системы Cerebras CS-3 и экземпляры на базе Trainium должны работать с тем же уровнем безопасности, изоляции и согласованности, которые уже используются клиентами AWS.
Amazon усиливает давление на Trainium, в то время как Nvidia сталкивается с новой угрозой
Это объявление также дает Amazon еще одну возможность конкурировать с чипами от Nvidia, AMD и других крупных производителей. AWS описывает Trainium как свой собственный чип для искусственного интеллекта, разработанный для масштабируемой производительности и экономичности как на этапе обучения, так и на этапе вывода результатов.
AWS заявила, что две крупные лаборатории искусственного интеллекта уже подтвердили свое участие. Компания Anthropic выбрала AWS в качестве основного партнера по обучению и использует Trainium для обучения и развертывания моделей. OpenAI будет использовать 2 гигаватта мощности Trainium через инфраструктуру AWS для среды выполнения с сохранением состояния (Stateful Runtime Environment), перспективных моделей и других сложных рабочих нагрузок.
AWS добавила, что Trainium3 демонстрируетtronвнедрение с момента своего недавнего выпуска, при этом клиенты из разных отраслей выделяют значительные мощности.
Компания Cerebras занимается декодированием. AWS заявила, что CS-3 предназначена для ускорения декодирования, что обеспечивает ей больше возможностей для быстрой обработки выходных токенов. Cerebras утверждает, что CS-3 — это самая быстрая в мире система вывода ИИ, обеспечивающая в тысячи раз большую пропускную способность памяти, чем самый быстрый графический процессор.
Компания заявила, что модели логического мышления теперь занимают большую долю в работе по выводу заключений и генерируют больше токенов за запрос по мере решения задач. Cerebras также сообщила, что OpenAI, Cognition, Mistral и другие используют ее системы для ресурсоемких задач, особенно для программирования агентов.
Эндрю Фельдман, основатель и генеральный директор Cerebras Systems, заявил: «Партнерство с AWS для создания решения для дезагрегированного вывода данных обеспечит максимально быстрый вывод информации для глобальной клиентской базы»
Эндрю добавил: «Каждое предприятие в мире сможет извлечь выгоду из невероятно быстрой обработки данных в рамках своей существующей среды AWS»
Эта сделка усиливает давление на Nvidia, которая в декабре подписала лицензионное соглашение с Groq на сумму 20 миллиардов долларов и планирует на следующей неделе представить новую систему обработки данных с использованием технологии Groq.
Если вы это читаете, значит, вы уже впереди. Оставайтесь на шаг впереди, подписавшись на нашу рассылку.
КУРС
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)















