По слухам, DeepSeek V4 превзойдёт ChatGPT и Claude в задачах кодирования с длинным контекстом, ориентированных на задачи элитного уровня. Инсайдеры утверждают, что разработчикам ИИ в Кремниевой долине следует насторожиться, если внутренние тесты покажут ожидаемые результаты после запуска в середине февраля.
По сообщениям, китайский стартап DeepSeek, занимающийся разработкой искусственного интеллекта, планирует выпустить DeepSeek V4, свою новейшую модель обработки больших языковых запросов, 17 февраля. Источники, знакомые с ситуацией, утверждают, что эта модель готова превзойти существующие модели обработки больших языковых запросов, такие как ChatGPT от OpenAI и Claude от Anthropic, при обработке запросов на ввод кода и задач с длинным контекстом.
Разработчики выражают большой интерес к релизу DeepSeek V4
На момент написания статьи китайская компания публично не раскрывала никакой информации о скором релизе и не подтверждала слухи. Разработчики в различных социальных сетях выражают глубокое ожидание выхода продукта. Ючен Цзинь, разработчик ИИ и соучредитель Hyperbolic Labs, написал на X, что «ходят слухи о скором выходе DeepSeek V4, с болееtronкодом, чем у Claude и GPT».
На сабреддите r/DeepSeek также разгорелась дискуссия, и один из пользователей объяснил, что его одержимость грядущей моделью V4 от DeepSeek не является нормальной. Пользователь сказал, что он часто «проверяет новости, возможные слухи и даже читает документацию на сайте DS, чтобы найти любые изменения или признаки, указывающие на обновление».
Предыдущие разработки DeepSeek оказали значительное влияние на мировые рынки. Китайский стартап в области ИИ выпустил свою модель логического мышления R1 в январе 2025 года, что привело к распродаже акций на триллион долларов. Эта модель сравнялась с моделью OpenAI 01 по математическим и логическим показателям, несмотря на то, что стоила значительно меньше, чем американская компания, занимающаяся ИИ, потратила на свою модель 01.
По сообщениям, китайская компания потратила на выпуск этой модели всего 6 миллионов долларов. В то же время глобальные конкуренты тратят почти в 70 раз больше на тот же продукт. Ее модель V3 также показала результат 90,2% в бенчмарке MATH-500, по сравнению с 78,3% у Claude. Более позднее обновление DeepSeek до версии V3 (V3.2 Speciale) еще больше повысило ее производительность.
Главная особенность модели V4 эволюционировала по сравнению с моделью V3, которая делала упор на чистые рассуждения, формальные доказательства и логическую математику. Ожидается, что новая версия станет гибридной моделью, сочетающей в себе как задачи, требующие рассуждений, так и задачи, не связанные с рассуждениями. Модель призвана завоевать рынок разработчиков, заполнив существующий пробел, требующий высокой точности и генерации кода в длительном контексте.
Claude Opus 4.5 демонстрирует превосходство в бенчмарке SWE, достигнув точности 80,9%. Для того чтобы превзойти Claude Opus 4.5, V4 необходимо превзойти этот показатель. Основываясь на предыдущих успехах, новая модель может преодолеть этот порог и занять лидирующие позиции в бенчмарке.
DeepSeek внедряет mHC в обучение магистров права
Успех DeepSeek поверг многих в глубокое профессиональное недоумение. Как такой небольшой компании удалось достичь таких высот? Секрет, возможно, кроется в исследовательской работе, опубликованной 1 января. Компанияdentновый метод обучения, позволяющий разработчикам легко масштабировать большие языковые модели. Лян Вэньфэн, основатель и генеральный директор DeepSeek, написал в исследовании, что компания использует гиперсвязи с ограничениями на многообразия (mHC) для обучения своих моделей ИИ.
Руководитель предложил использовать mHC для решения проблем, возникающих при обучении разработчиками больших языковых моделей. По словам Вэньфэна, mHC — это усовершенствованная версия Hyper-Connections (HC), фреймворка, который другие разработчики ИИ используют для обучения своих больших языковых моделей. Он объяснил, что HC и другие традиционные архитектуры ИИ направляют все данные через один узкий канал. В то же время mHC расширяет этот путь на несколько каналов, облегчая передачу данных и информации без сбоя в процессе обучения.
Лиан Цзе Су, главный аналитик Omdia, высоко оценил решение генерального директора Вэньфэна опубликовать результаты исследования. Су подчеркнул, что решение DeepSeek опубликовать свои методы обучения свидетельствует о возросшем доверии к китайскому сектору ИИ. DeepSeek доминирует в развивающихся странах. В четверг Microsoft опубликовала отчет, показывающий, что DeepSeek контролирует 89% китайского рынка ИИ и набирает обороты в развивающихся странах.

