Alibaba a annoncé mercredi, premier jour du Nouvel An lunaire chinois, une nouvelle version de son modèle d'intelligence artificielle Qwen 2.5. L'entreprise technologique chinoise a affirmé que Qwen 2.5 surpassait le très réputé DeepSeek-V3.
Alibaba a annoncé sur son compte WeChat officiel que Qwen 2.5-Max surpassait la quasi-totalité des modèles d'IA, y compris GPT-40, DeepSeek-V3 et Llama-3.1-405B. Cette annonce faisait suite au lancement de l'assistant IA de DeepSeek (DeepSeek-V3) le 10 janvier et à celui de son modèle R1 le 20 janvier.
La récente publication du modèle R1 de DeepSeek a provoqué une onde de choc et une chute brutale des cours boursiers des entreprises technologiques américaines, notamment celui de Nvidia. DeepSeek affirme avoir créé ce modèle avec seulement 6 milliards de dollars, contre des milliards investis par d'autres entreprises technologiques américaines dans le domaine de l'IA.
L'entreprise technologique a également insufflé un nouvel élan à son marché domestique, incitant d'autres sociétés technologiques chinoises à publier rapidement des mises à jour de leurs modèles d'IA. Un article de Reuters a révélé que deux jours après la sortie de DeepSeek-R1, ByteDance a également publié une mise à jour de son modèle d'IA phare. La société mère de TikTok a affirmé que ce modèle surpasse o1, le modèle d'OpenAI soutenu par Microsoft, lors de tests mesurant la capacité des modèles d'IA à comprendre et à répondre à des instructions complexes.
Alibaba lance la nouvelle version de son modèle d'IA Qwen2.5
L'essor de DeepSeek V3 a trac l'attention de toute la communauté IA sur les modèles MoE à grande échelle. Parallèlement, nous avons développé Qwen2.5-Max, un LLM MoE de grande taille, pré-entraîné sur un volume massif de données et post-entraîné avec des recettes SFT et RLHF optimisées. Il atteint des performances compétitives… pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) 28 janvier 2025
L'entreprise technologique chinoise a annoncé lundi que son nouveau modèle d'IA, Qwen2.5-VL, était capable d'effectuer de nombreuses tâches d'analyse de texte et d'images. Elle a également précisé que Qwen2.5 était similaire au modèle qui équipe Operator, le service récemment lancé par OpenAI. Ce modèle d'IA peut comprendre des vidéos, analyser des fichiers, compter des objets dans des images et même piloter un ordinateur.
D'après les tests comparatifs menés par l'équipe Qwen, le modèle Qwen2.5-VL surpasse GPT-40 d'OpenAI, Claude 3.5 d'Anthropic et Gemini 2.0 Flash de Google. Ce nouveau modèle d'IA pourrait surpasser ses concurrents en compréhension vidéo, en mathématiques, en analyse de documents et en évaluation de questions-réponses.
Alibaba a confirmé que Qwen2.5-VL était disponible pour des tests dans son application Qwen Chat et en téléchargement sur la plateforme de développement d'IA Hugging Face. L'équipe Qwen a indiqué que le modèle d'IA peut analyser des graphiques et des diagrammes,tracdes données à partir de numérisations de factures et de formulaires, et « comprendre » des vidéos de plusieurs heures. Ce modèle peut également reconnaître des adresses IP issues de films et de séries télévisées, ainsi qu'une grande variété de produits.
L'équipe de Qwen a révélé que le modèle était soumis à certaines restrictions quant aux sujets qu'il pouvait aborder dans Qwen Chat, car l'IA avait été développée par une entreprise chinoise. Selon l'équipe, l'autorité de régulation d'Internet en Chine évalue de nombreux modèles développés dans le pays afin de s'assurer que leurs réponses « incarnent les valeurs socialistes fondamentales ». Plusieurs entreprises chinoises spécialisées en IA, comme Ernie , évitent également de répondre aux sujets susceptibles d'irriter les autorités de régulation ou qui pourraient être jugés trop sensibles.
L'équipe de Qwen dévoile les capacités de Qwen2.5-VL
L'équipe de développement de Qwen2.5-VL a révélé que l'une des caractéristiques intéressantes de ce modèle d'IA est sa capacité à interagir avec des logiciels, aussi bien sur PC que sur appareils mobiles. Philipp Schmid, responsable technique chez Hugging Face, a démontré que le modèle d'IA lançait l'application Booking.com pour Android et réservait un vol de Chongqing à Pékin.
« Malgré tout le battage médiatique autour de DeepSeek, Qwenn vient de sortir le meilleur outil multimodal open source ! Qwen 2.5 VL est un modèle de langage visuel capable de contrôler votre ordinateur, à l'instar de l'opérateur OpenAI, d'tracdes informations structurées de graphiques, et bien plus encore ! »
– Philipp Schmid , responsable technique chez Hugging Face
Vaibhav Srivastav, data scientist chez Hugging Face, a démontré que le modèle Qwen2.5-VL permet de contrôler des applications sur un bureau Linux, mais se limite à la simple navigation entre les onglets. Cette démonstration confirme les résultats des tests de performance de Qwen, qui ont révélé les faibles performances de Qwen2.5-VL sur OSWorld, un benchmark simulant un environnement informatique réel.
L'entreprise chinoise spécialisée dans l'intelligence artificielle a également révélé que les deux modèles plus petits et moins sophistiqués de la série Qwen2.5VL, Qwen2.5-VL-3B et Qwen2.5-VL-7B, étaient disponibles sous des licences permissives. Le modèle phare, Qwen2.5-VL-7B, reste quant à lui soumis à la licence personnalisée d'Alibaba, qui exige que les entreprises et les développeurs comptant plus de 100 millions d'utilisateurs actifs mensuels obtiennent l'autorisation de Qwen ou d'Alibaba avant de commercialiser le modèle d'IA.

