ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Китайская компания DeepSeek представила модель искусственного интеллекта нового поколения, способную составить конкуренцию GPT-5. Но достаточно ли она хороша?

КДжай ХамидДжай Хамид
3 минуты чтения,
Китайская компания DeepSeek представила модель искусственного интеллекта нового поколения, призванную составить конкуренцию GPT-5. Но достаточно ли она хороша?
  • В понедельник компания DeepSeek представила свою новую модель V3.2-Exp, ориентированную на скорость, снижение затрат и обработку больших объемов данных.
  • В данной модели используется механизм DeepSeek Sparse Attention, который пропускает нерелевантные данные, повышая эффективность и сокращая затраты вдвое.
  • Эксперты предупреждают, что, несмотря на свои преимущества, невнимательность может привести к потере важной информации и снижению надежности.

Китайская технологическая компания DeepSeek, настоящий феномен в мире технологий, выпустила новую экспериментальную модель V3.2-Exp в рамках попытки бросить вызов американскому доминированию в сфере искусственного интеллекта. Релиз состоялся в понедельник, и впервые информация о нем появилась в сообщении на популярном форуме по искусственному интеллекту Hugging Face.

Компания DeepSeek утверждает, что эта последняя версия основана на текущей модели V3.1-Terminus, но с ещеtronупором на скорость, стоимость и обработку памяти.

По словам Адины Якефу, руководителя китайского сообщества Hugging Face, в модели используется технология DeepSeek Sparse Attention (DSA), которая, как она заявила, «улучшает способность ИИ обрабатывать длинные документы и диалоги», а также вдвое снижает операционные расходы.

Как вы помните, примерно год назад DeepSeek неожиданно выпустила свою первую модель R1, что произвело настоящий фурор. Эта модель показала, что можно обучить большую языковую модель, используя меньшее количество чипов и значительно меньшую вычислительную мощность. Никто не ожидал, что китайская команда сможет это сделать в таких условиях. С версией V3.2-Exp цель осталась прежней: меньше оборудования, больше производительности.

Добавляет механизм DeepSeek Sparse Attention и снижает эксплуатационные расходы ИИ

Ключевой особенностью этой модели является DSA (Discovery, Story, Array, and Analysis). Она меняет подход ИИ к выбору информации для анализа. Вместо сканирования всего подряд, DeepSeek обучает модель фокусироваться только на том, что кажется полезным для решения задачи. Адина объяснила , что здесь есть двойная выгода: «эффективность» и «снижение затрат».

Благодаря исключению нерелевантных данных модель работает быстрее и требует меньше энергии. Она сказала, что модель была разработана с учетом возможности сотрудничества в рамках открытого программного обеспечения.

Ник Пейшенс, руководитель исследований в области ИИ в The Futurum Group, рассказал CNBC, что эта модель потенциально может открыть доступ к мощным инструментам ИИ для разработчиков, которые не могут позволить себе использовать более дорогие модели. «Это должно сделать модель быстрее и экономичнее в использовании без заметного снижения производительности», — сказал Ник. Но это не означает, что рисков нет.

Использование DeepSeek механизма разреженного внимания похоже на то, как авиакомпании выбирают маршруты полетов. Могут существовать сотни способов добраться из одного места в другое, но лишь немногие из них имеют смысл. Модель отфильтровывает шум и фокусируется на том, что действительно важно — или, по крайней мере, на том, что, по ее мнению, важно.

Но это вызывает опасения. Екатерина Альмаск, соучредитель BlankPage Capital, объяснила это просто: «По сути, вы исключаете то, что считаете неважным». Но проблема, по ее словам, в том, что нет гарантии, что модель исключает именно то, что нужно.

Екатерина, которая поддерживала такие компании, как Dataiku,tracи Graphcore, предупредила, что упрощение может создать проблемы в будущем. «Они [модели с разреженным вниманием] утратили много нюансов, — сказала она. — И тогда возникает реальный вопрос: был ли у них правильный механизм для исключения неважных данных, или существует механизм, исключающий действительно важные данные, и тогда результат будет гораздо менее релевантным?»

Подключается к китайским чипам и публикует открытый код

Несмотря на эти опасения, DeepSeek настаивает на том, что версия V3.2-Exp работает так же хорошо, как и V3.1-Terminus. Модель также может работать напрямую на китайских чипах, таких как Ascend и Cambricon, без необходимости дополнительной настройки. Это ключевой момент в более широких усилиях Китая по созданию ИИ на собственном оборудовании и снижению зависимости от иностранных технологий. «DeepSeek работает с этими чипами сразу же после установки», — сказал Адина.

Компания также сделала полный код модели и инструменты общедоступными. Это означает, что любой может загрузить, запустить, модифицировать или использовать V3.2-Exp в качестве основы для своих разработок. Этот шаг соответствует стратегии DeepSeek в отношении открытого исходного кода, но поднимает другой вопрос: патенты. Поскольку модель является открытой, а основная идея, разреженное внимание, существует с 2015 года, DeepSeek не может юридически её заблокировать.

«Этот подход не совсем новый», — сказала Екатерина. По ее мнению, единственная оправданная часть технологии — это то, как DeepSeek выбирает, что сохранять, а что игнорировать.

Вот где сейчас кроется настоящая конкуренция. Не просто в создании более совершенных моделей, а в их ускорении, удешевлении и оптимизации — без ущерба для результатов. Даже DeepSeek назвала эту версию «промежуточным шагом к нашей архитектуре следующего поколения», что говорит о том, что они уже работают над чем-то более масштабным.

Ник сказал, что эта модель показывает, что эффективность сейчас так же важна, как и мощность. А Адина считает, что компания ориентируется на долгосрочную перспективу. «DeepSeek играет в долгую игру, чтобы сообщество оставалось заинтересованным в их развитии», — сказала она. «Люди всегда будут выбирать то, что дешево, надежно и эффективно»

Если вы это читаете, значит, вы уже впереди. Оставайтесь на шаг впереди, подписавшись на нашу рассылку.

Поделитесь этой статьей
ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС