В среду, в первый день китайского Нового года по лунному календарю, компания Alibaba анонсировала новую версию своей модели искусственного интеллекта Qwen 2.5. Китайская технологическая компания заявила, что Qwen 2.5 превзошла получившую широкое признание модель DeepSeek-V3.
Компания Alibaba сообщила в своем официальном аккаунте WeChat, что Qwen 2.5-Max превзошел почти все модели с искусственным интеллектом, включая GPT-40, DeepSeek-V3 и Llama-3.1-405B. Эта новость появилась после выпуска 10 января голосового помощника DeepSeek (DeepSeek-V3) и 20 января — модели R1.
Недавний выпуск модели R1 от DeepSeek вызвал шок и обвал акций американских технологических компаний, особенно Nvidia. DeepSeek заявила, что создала модель R1 всего за 6 миллиардов долларов, в то время как другие американские технологические фирмы тратят миллиарды долларов на разработку искусственного интеллекта.
Эта технологическая компания также придала импульс развитию своего внутреннего рынка, и другие китайские технологические фирмы поспешили выпустить обновления для своих моделей ИИ. В сообщении Reuters говорится, что через два дня после выпуска DeepSeek-R1 компания ByteDance также выпустила обновление для своей флагманской модели ИИ. Материнская компания TikTok заявила, что она превосходит модель o1 от OpenAI, поддерживаемой Microsoft, в тестах, измеряющих, насколько хорошо модели ИИ понимают сложные инструкции и реагируют на них.
Компания Alibaba выпустила новую версию своей модели искусственного интеллекта Qwen2.5
Внезапный успех DeepSeek V3 привлек trac всего сообщества ИИ к крупномасштабным моделям MoE. Одновременно мы разрабатываем Qwen2.5-Max, большую модель MoE LLM, предварительно обученную на больших массивах данных и дополнительно обученную с использованием специально подобранных алгоритмов SFT и RLHF. Она достигает конкурентоспособных результатов… pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) 28 января 2025 г.
Китайская технологическая компания объявила в понедельник, что новая модель ИИ, Qwen2.5-VL, способна выполнять ряд задач по анализу текста и изображений. Компания также заявила, что Qwen2.5 похожа на модель, лежащую в основе недавно запущенного OpenAI Operator. Эта модель ИИ может понимать видео, анализировать файлы, подсчитывать объекты на изображениях, а также управлять компьютером.
Согласно результатам сравнительных тестов, проведенных командой Qwen, модель Qwen2.5-VL превосходит GPT-40 от OpenAI, Claude 3.5 sonnet от Anthropic и Gemini 2.0 Flash от Google. Новая модель ИИ может превзойти своих конкурентов в понимании видео, математических вычислениях, анализе документов и оценке ответов на вопросы.
Компания Alibaba подтвердила, что Qwen2.5-VL доступен для тестирования в приложении Qwen Chat и для загрузки с платформы разработки ИИ Hugging Face. Команда Qwen заявила, что модель ИИ может анализировать диаграммы и графики,tracданные из сканированных счетов и форм, а также «понимать» многочасовые видеоролики. Модель ИИ также может распознавать интеллектуальную собственность из фильмов и сериалов, а также широкий спектр товаров.
Команда Qwen сообщила, что модель имеет определенные ограничения на темы, которые она может обсуждать в чате Qwen, поскольку ИИ был разработан китайской компанией. По словам команды, китайский интернет-регулятор оценивает многие модели, разработанные в стране, чтобы убедиться, что их ответы «воплощают основные социалистические ценности». Несколько китайских компаний, занимающихся ИИ, таких как Ernie , также уклоняются от ответов на темы, которые могут вызвать недовольство регуляторов или которые могут быть сочтены слишком деликатными.
Команда Qwen раскрывает возможности Qwen2.5-VL
Команда разработчиков Qwen2.5-VL рассказала, что одной из интересных особенностей модели ИИ является ее способность взаимодействовать с программным обеспечением как на ПК, так и на мобильных устройствах. Филипп Шмид, технический руководитель Hugging Face, продемонстрировал запуск модели ИИ приложения Booking.com для Android и бронирование рейса из Чунцина в Пекин.
«Несмотря на всю шумиху вокруг DeepSeek, Qwenn выпустила лучшую открытую мультимодальную модель! Qwen 2.5 VL — это модель обработки визуальной информации, которая может управлять вашим компьютером, подобно оператору OpenAI,tracструктурированную информацию из графиков и многое другое!»
– Филипп Шмид , руководитель технической группы Hugging Face
Вайбхав Шривастав, специалист по анализу данных в компании Hugging Face, продемонстрировал, как модель Qwen2.5-VL управляет приложениями на рабочем столе Linux, но не может делать ничего, кроме переключения вкладок. Демонстрация совпала с результатами бенчмаркинга Qwen, который показал низкие результаты Qwen2.5-VL в OSWorld — бенчмарке, имитирующем реальную компьютерную среду.
Китайская компания, занимающаяся разработкой технологий искусственного интеллекта, также сообщила, что две более компактные и менее сложные модели серии Qwen2.5VL, Qwen2.5-VL-3B и Qwen2.5-VL-7B, доступны по разрешительным лицензиям. Флагманская модель Qwen2.5-VL-7B по-прежнему будет распространяться по собственной лицензии Alibaba, которая требует от компаний и разработчиков с более чем 100 миллионами активных пользователей в месяц запрашивать разрешение у Qwen или Alibaba перед коммерческим внедрением модели ИИ.

