La nouvelle famille Qwen3 de modèles d'IA d'Alibaba a dépassé le R1 de Deepseek pour devenir le meilleur modèle de source open au monde. Selon les rapports, Qwen3 a fait mieux que R1 dans les tests qui mesurent les capacités des modèles d'IA open source dans des domaines tels que l'enseignement du langage, les mathématiques, le codage et l'analyse des données.
La famille Qwen3 a été lancée la semaine dernière par l'unité de cloud computing d'Alibaba. Il a huit modèles améliorés avec entre 600 et 235 milliards de paramètres. Dans l'apprentissage automatique, les paramètres sont les variables dans un système d'IA pendant sa formation.
Selon LiveBench Platform, une plate-forme indépendante dent teste de grands modèles de langue, avant ces nouveaux tests, le R1 de Deepseek avait été le meilleur modèle d'IA open source au monde depuis sa sortie en janvier. Mais plus maintenant.
Les entreprises américaines et chinoises se précipitent pour adopter Qwen 3
La montée en puissance de Qwen3 dans le classement LiveBench montre à quelle vitesse l'IA se développe en Chine. L'industrie de la technologie chinoise a beaucoup grandi grâce aux outils open-source. Le code de méthode open-source Alibaba a permis à d'autres développeurs de logiciels tiers de partager la conception, de réparer les liens cassés ou de rendre le programme plus puissant.
Cependant, les résultats globaux de LiveBench ont montré que Qwen3 n'était pas aussi bon que O3 d'Openai, Google's Gemini Pro 2.5 et Claude 3.7 d'Anthropic, qui sont les meilleurs modèles d'IA à source fermée au monde. LiveBench dit que le modèle d'IA plus populaire d'O3-Mini, le modèle d'IA le plus populaire d'Openai, était le meilleur au monde dans son ensemble. Microsoft sauvegarde Openai.
Pour chaque million de jetons, il faut 10 $ pour fonctionner O3. D'un autre côté, Qwen3 est moins cher à utiliser car il ne coûte que 0,55 $ pour 1 million de jetons à exécuter. Parce que Qwen3 est moins cher et fonctionne mieux, de nombreuses entreprises ont déclaré qu'elles soutiendraient le nouveau modèle d'IA d'Alibaba dès sa sortie.
Huawei Technologies, Moore Threads, Cambricon Technologies et Hygon Information Technology sont toutes des sociétés de puces qui ont déclaré qu'elles soutiendront QWEN3.
Cambricon a déclaré mardi dernier qu'il avait réussi à optimiser QWEN3 pour fonctionner rapidement sur ses unités de traitement graphique. Cela a été fait parce que les développeurs d'IA aux Philippines voulaient des puces réalisées en Chine.
Qwen3 est également utilisé sur les services de cloud computing de Hyperbolic et Fireworks.ai, deux sociétés d'infrastructure d'IA. Les fabricants de puces américains Nvidia et Intel ont commencé à soutenir Qwen3.
De nombreux centres de Big Data en Chine, comme ceux de Pékin, Shanghai, Hangzhou et les provinces de Hubei, Jilin et du nord-ouest du Shaanxi, ont également déclaré qu'ils utiliseraient les modèles Qwen de troisième génération d'Alibaba. Le réseau de supercalcul en Chine a également adopté QWEN3. Ce réseau relie plus de 20 centres de données dans 20 villes dans 14 provinces.
Le PDG d'Anthropic dit que Deepseek était «un peu exagéré»
Lors d'un événement commercial, un co-fondateur d'Anthropic, la société qui a fait les modèles Claude AI, a déclaré que Deepseek était encore «de six à huit mois de retard sur les entreprises de frontières américaines». Il a également déclaré que le récent buzz autour de la start-up chinoise était «peut-être un peu exagéré».
Deepseek a attiré l'attention dans le monde entier fin décembre 2024 et début janvier 2025 en partageant deux modèles d'IA open-source avancés, V3 et R1. Ces modèles ont été conçus pour une petite fraction du coût et de la puissance de calcul dont les grandes entreprises technologiques ont généralement besoin de projets LLM.
On ne sait pas quand Deepseek publiera la prochaine génération de ses modèles. La société basée à Hangzhou a sorti tranquillement son Prover-V2 de 671 milliards de milliards de dollars fin avril . Il s'agissait d'une mise à jour de son modèle spécialisé pour gérer les preuves mathématiques. Cependant, il n'a rien dit sur les progrès de son modèle de raisonnement R2 tant attendu.
Cryptopolitan Academy: à venir bientôt - une nouvelle façon de gagner un revenu passif avec DeFi en 2025. En savoir plus