Your bank is using your money. You’re getting the scraps.WATCH FREE

Компания DeepSeek сообщила о стоимости обучения своей модели искусственного интеллекта в размере 294 000 долларов

В этом посте:

  • Китайская компания, занимающаяся разработкой искусственного интеллекта, заявляет, что обучение ее модели обошлось всего в 294 000 долларов.
  • Этот показатель значительно ниже, чем у американских конкурентов, что поднимает новые вопросы в отрасли.
  • Компания DeepSeek отрицает копирование результатов работы моделей конкурентов.

Китайская компания DeepSeek заявила, что ее флагманская система искусственного интеллекта R1 была обучена всего за 294 000 долларов, что составляет лишь малую часть сумм, которые, как считается, тратят американские конкуренты.

Подробности были опубликованы на этой неделе в рецензируемой статье в журнале Nature, и это, вероятно, подогреет дальнейшие дебаты об амбициях Пекина в глобальной гонке искусственного интеллекта. Компания из Ханчжоу сообщила, что модель, ориентированная на логическое мышление, была обучена с использованием 512 чипов Nvidia H800. Это оборудование было разработано специально для Китая после того, как США запретили продажу более мощных процессоров H100 и A100.

В статье, соавтором которой является основатель компании Лян Вэньфэн, впервые раскрываются данные о подобных расходах.

DeepSeek использует лишь небольшую часть ресурсов американских моделей, что значительно дешевле

В январе выпуск более дешевых инструментов искусственного интеллекта от DeepSeek дестабилизировал мировые рынки, что привело к распродаже акций технологических компаний из-за опасений, что они могут подорвать позиции таких признанных гигантов, как Nvidia и OpenAI.

Однако Лян и его команда с тех пор стараются не привлекать к себе лишнего внимания, появляясь на публике лишь изредка для обновления информации о продукте.

Заявленная цена в 294 000 долларов резко контрастирует с оценками американских компаний.

В 2023 году генеральный директор OpenAI Сэм Альтман заявил: «Обучение базовых моделей обходится гораздо дороже, чем 100 миллионов долларов». Однако он не предоставил конкретных данных.

Обучение больших языковых моделей предполагает работу мощных процессоров в течение длительного времени, что потребляет огромное количество электроэнергии при обработке текста и кода. Наблюдатели в отрасли давно предполагают, что затраты на такие проекты исчисляются десятками или даже сотнями миллионов долларов.

Это предположение сейчас оспаривается, и в дополнительном документе DeepSeek признала, что владеет чипами A100 и использовала их на ранних этапах разработки, прежде чем перенести полномасштабное обучение на свой кластер H800. По данным технологической компании, модель работала 80 часов на заключительном этапе обучения.

См. также:  UBS использует клоны аналитиков на основе ИИ для удовлетворения спроса на короткие видеоролики об инвестициях в стиле TikTok.

Несмотря на то, что Nvidia настаивает на том, что китайский стартап имеет доступ только к их процессорам H800, американские чиновники остаются скептически настроены. Несколько месяцев назад источники в США сообщили Reuters , что DeepSeek незаконно владеет большими объемами чипов H100, экспорт которых в Китай запрещен.

Изучение инноваций под микроскопом

Модель R1 привлекла внимание не только низкой стоимостью обучения, но и тем, что она может стать первой крупной моделью, прошедшей формальную экспертную оценку.

«Это очень обнадеживающийdent, и если у нас не будет такой нормы обмена информацией, станет очень сложно оценивать риски», — сказал Льюис Танстолл, инженер по машинному обучению из компании Hugging Face, который рецензировал статью в журнале Nature.

В ходе проверки компания DeepSeek была вынуждена уточнить технические детали, в том числе, как обучалась ее модель и какие меры безопасности были приняты.

«Прохождение строгой процедуры рецензирования, безусловно, помогает подтвердить достоверность и полезность модели», — сказал Хуан Сунь, исследователь в области искусственного интеллекта из Университета штата Огайо.

Ключевым прорывом DeepSeek стало использование подхода, основанного исключительно на обучении с подкреплением. Согласно статье, вместо того чтобы полагаться на примеры рассуждений, подготовленные людьми, модель получала вознаграждение за правильное решение задач и постепенно разрабатывала собственные стратегии решения проблем.

В компании заявляют, что эта система проб и ошибок позволила R1 проверить свою работу, не копируя методы, используемые людьми.

См. также:  Google сотрудничает с компанией BlackRock, занимающейся разработкой солнечных электростанций на Тайване, на фоне бума искусственного интеллекта.

«Эта модель оказала значительное влияние», — добавил Сунь. «Почти вся работа по обучению с подкреплением в 2025 году, возможно, так или иначе была вдохновлена ​​моделью R1»

Компания DeepSeek опровергает заявления о копировании

Вскоре после выхода R1 появились предположения, что DeepSeek использовал результаты работы конкурентов, в частности OpenAI, для ускорения обучения; однако компания теперь категорически опровергла это утверждение.

В переписке с рецензентами DeepSeek настаивала на том, что R1 не копировала примеры рассуждений, сгенерированные OpenAI. Однако, как и большинство крупных языковых моделей, она обучалась на текстах из интернета. Это означает, что некоторый контент, созданный ИИ, неизбежно присутствовал, и это объяснение убедило некоторых рецензентов.

«Я не могу быть на 100% уверен, что R1 не обучался на примерах OpenAI. Однако попытки воспроизведения, предпринятые другими лабораториями, показывают, что обучение с подкреплением само по себе достаточно эффективно», — сказал Танстолл.

Компания DeepSeek утверждает, что R1 создан для превосходного решения сложных задач, требующих логического мышления, таких как программирование и математикаmaticВ отличие от большинства закрытых систем, разработанных американскими компаниями, он был выпущен как модель с открытыми весами, свободно доступная для скачивания исследователями. На сайте сообщества ИИ Hugging Faceон уже был скачан более 10 миллионов раз.

Компания потратила около 6 миллионов долларов на разработку базовой модели, на которой построен R1, но даже с учетом этих затрат ее стоимость значительно ниже, чем у конкурентов. Для многих в этой области это делает R1trac.

Недавно Сунь и его коллеги протестировали систему на задачах обработки научных данных и обнаружили, что она не самая точная, но входит в число лучших по соотношению цены и качества.

 

Если вы это читаете, значит, вы уже впереди. Оставайтесь на шаг впереди, подписавшись на нашу рассылку.

Поделиться ссылкой:

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtrondentdentdentdentdentdentdentdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Подпишитесь на Cryptopolitan Daily и получайте своевременные, точные и актуальные аналитические материалы о криптовалютах прямо на свою электронную почту.

Присоединяйтесь прямо сейчас и
ничего не пропустите.

Заходите. Получайте достоверную информацию.
Опережайте события.

Подпишитесь на CryptoPolitan