ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Компания DeepSeek представила технологию mHC, но столкнулась с трудностями в процессе рецензирования

Автор:Энаси МапакамеЭнаси Мапакаме
3 минуты чтения,
Компания DeepSeek представила технологию mHC, но столкнулась с трудностями в процессе рецензирования.
  • Компания DeepSeek предлагает новый способ масштабирования ИИ без дополнительных вычислительных мощностей.
  • Исследователи видят многообещающие перспективы, но предупреждают о необходимости проведения дополнительных исследований.
  • mHC может изменить подход к обучению больших языковых моделей.

В условиях растущих затрат на разработку и поддержку ИИ, а также ограниченного количества доступного оборудования, компания DeepSeek представила новый план развития и масштабирования искусственного интеллекта (ИИ).

Китайский стартап считает, что сможет создавать значительно лучшие модели ИИ без обязательного добавления большего количества чипов и, следовательно, увеличения энергопотребления. Хотя предложенная концепция mHC привлекла значительное внимание многих исследователей в этой области, в целом считается, что она все еще находится на ранней стадии развития.

Для определения преимуществ этого подхода при разработке более крупных систем искусственного интеллекта потребуются дальнейшие исследования. На прошлой неделе был опубликован технический документ, подробно описывающий концепцию mHC, соавтором которого является Лян Вэньфэн, основатель и генеральный директор DeepSeek.

DeepSeek переосмысливает проектирование сетей для масштабирования искусственного интеллекта

Одним из главных компонентов работы является переоценка способов передачи информации между различными слоями многослойной нейронной сети.

Каждый слой нейронной сети передает обработанную информацию следующему слою модели, создавая то, что получило название «сеть остаточного обучения» (ResNet). Разработанные Каймингом Хе и другими сотрудниками Microsoft Research около десяти лет назад, сети ResNet заложили фундаментальную основу для ряда самых передовых современных систем искусственного интеллекта.

Концепция, разработанная DeepSeek, появилась после того, как ByteDance представила технологию Hyper-Connections в 2024 году. Hyper-Connections позволяет информации передаваться по сети по нескольким маршрутам, а не только по одному основному пути, что может повысить скорость обучения и обогатить пользовательский опыт.

Однако, несмотря на свою пользу, они также могут приводить кmatic ситуациям в процессе обучения, когда модели испытывают нестабильность или полный сбой.

По словам Сун Линьци (Городской университет Гонконга), исследования DeepSeek представляют собой развитие уже существующей идеи, продолжение подхода DeepSeek к изучению работы других компаний, а не изобретение чего-то с нуля.

ResNet сравнивают с однополосной автомагистралью, а Hyper-Connections — с многополосной; однако Сонг предупредил, что наличие нескольких полос без надлежащих правил может привести к увеличению числа аварий.

Профессор Го Сонг из Гонконгского университета науки и технологий считает, что данная исследовательская работа может указывать на изменение в исследовательском поведении в области искусственного интеллекта. Вместо того чтобы продолжать вносить незначительные изменения в существующие модели, он полагает, что исследования могут развиваться в направлении разработки новых моделей, основанных на теоретических концепциях.

Исследователи проводят тестирование mHC, но высказывают практические опасения

Несмотря на то, что недавний прорыв в тестировании mHC для глубокого обучения вызвал большой интерес, эксперты подчеркнули, что исследования еще не завершены. В ходе тестирования, проведенного DeepSeek, использовались только четыре канала данных при проверке моделей с 27 миллиардами параметров.

«Эксперименты подтвердили работоспособность моделей с количеством параметров до 27 миллиардов, но как они покажут себя на современных моделях, которые на порядок больше?»

Профессор Го Сун.

Современные модели искусственного интеллекта стали больше по размеру и, как правило, содержат сотни миллиардов параметров по сравнению с 30 миллиардами параметров, которые считались стандартом всего несколько лет назад.

Го поддержал эти настроения и заявил, что пока нельзя с уверенностью сказать, сможет ли mHC выполнять работу на переднем крае технологий искусственного интеллекта. Он также отметил, что инфраструктура, необходимая для функционирования mHC, может оказаться слишком сложной для использования небольшими исследовательскими учреждениями и компаниями на мобильных устройствах.

По данным Cryptopolitan, популярность DeepSeek началась с выпуска большой языковой модели DeepSeek V3, а затем, всего через пару недель, и модели рассуждений DeepSeek-R1.

При сравнении результатов моделей с результатами конкурентов в ходе сравнительных тестов обе модели смогли достичь или превзойти результаты конкурентов, несмотря на то, что при их выпуске использовалась лишь часть обучающих данных, использованных для других конкурирующих языковых моделей.

Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.

Поделитесь этой статьей
ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС