Le modèle o3 d'OpenAI n'atteint pas les performances annoncées par ses propres analystes

- OpenAI affirmait que son modèle o3 pouvait résoudre plus de 25 % des problèmes de FrontierMath, mais de nouveaux tests effectués par Epoch AI révèlent que la version publique ne peut en résoudre qu'environ 10 %.
- Le prix ARC et un ingénieur d'OpenAI confirment que le modèle publié est une version plus légère et plus rapide, optimisée pour une utilisation dans les messageries instantanées.
- Les entreprises concurrentes, notamment xAI et Meta, font également l'objet d'un examen minutieux en raison de résultats de référence gonflés.
Le nouveau LLM d'OpenAI, o3, fait l'objet d'un examen minutieux après que des testsdent ont révélé qu'il résolvait un nombre de problèmes mathématiques difficiles bien inférieur à ce qu'avait initialement affirmé l'entreprise.
Lors du lancement d'o3 par OpenAI en décembre, les dirigeants ont déclaré que le modèle pouvait répondre à « un peu plus d'un quart » des problèmes de FrontierMath, un ensemble réputé difficile de casse-têtes mathématiques de niveau supérieur.
Selon eux, leur meilleur concurrent plafonnait aux alentours de 2 %. « Aujourd'hui, toutes les offres du marché affichent moins de 2 % », a déclaré Mark Chen, directeur de la recherche, lors de la présentation en direct. « Avec o3, dans des conditions de test intensives, nous parvenons à dépasser les 25 %. »
TechCrunch a rapporté que ce résultat a été obtenu par OpenAI sur une version d'o3 utilisant une puissance de calcul supérieure à celle du modèle publié par la société la semaine dernière..
Vendredi, l'institut de recherche Epoch AI, qui a créé FrontierMath, a publié son propre score pour le public o3.
OpenAI a publié o3, son modèle de raisonnement très attendu, ainsi que o4-mini, un modèle plus petit et moins cher qui succède à o3-mini.
Nous avons évalué les nouveaux modèles sur notre ensemble de tests de référence en mathématiques et en sciences. Résultats dans ce fil ! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) 18 avril 2025
En utilisant une version mise à jour de 290 questions du test de référence, Epoch a estimé le modèle à environ 10 %.
Le résultat correspond bien à une valeur minimale figurant dans le document technique d'OpenAI de décembre, et Epoch a averti que l'écart pourrait être dû à diverses raisons.
« La différence entre nos résultats et ceux d’OpenAI pourrait être due au fait qu’OpenAI utilise une infrastructure interne plus puissante pour l’évaluation, qu’il utilise davantage de calculs au moment du test, ou que ces résultats ont été obtenus sur un sous-ensemble différent de FrontierMath », a écrit.
FrontierMath a pour but de mesurer les progrès accomplis en matière de raisonnementmaticavancé. L'ensemble public de décembre 2024 contenait 180 problèmes, tandis que la mise à jour privée de février 2025 a porté ce nombre à 290.
Des modifications dans la liste des questions et dans la puissance de calcul autorisée au moment du test peuvent entraîner d'importantes variations dans les pourcentages rapportés.
OpenAI a confirmé que le modèle o3 public utilise moins de ressources de calcul que la version de démonstration
Des tests menés par la Fondation ARC Prize, qui a utilisé une version antérieure plus puissante, ont également mis en évidence les lacunes de la version commerciale d'o3. La version publique « repose sur un modèle différent… optimisé pour les messageries instantanées et les applications », a indiqué sur X, précisant que « toutes les versions d'o3 publiées sont moins performantes que celle que nous avons testée ».
Wenda Zhou, employé d'OpenAI, a fourni une explication similaire lors d'une diffusion en direct la semaine dernière. Le système de production, a-t-il déclaré, était « mieux optimisé pour les cas d'utilisation concrets » et pour la vitesse. « Nous avons procédé à des optimisations afin de rendre le modèle plus rentable et, de manière générale, plus utile », a affirmé M. Zhou, tout en reconnaissant d'éventuelles « disparités » par rapport aux performances de référence
Deux modèles plus petits de la société, o3‑mini‑high et le tout nouveau o4‑mini, ont déjà battu o3 sur FrontierMath, et OpenAI affirme qu'une meilleure variante o3‑pro arrivera dans les semaines à venir.
Cela montre néanmoins à quel point les titres des benchmarks peuvent être trompeurs. En janvier, Epoch a été critiqué pour avoir retardé la divulgation du financement d'OpenAI jusqu'après le lancement d'o3. Plus récemment, la start-up xAI d'Elon Musk a été accusée d'avoir présenté des graphiques surestimant les capacités de son modèle Grok 3.
Les observateurs du secteur affirment que de telles controverses autour des normes de référence deviennent monnaie courante dans l'industrie de l'IA, les entreprises se livrant une véritable course pour faire la une des journaux avec de nouveaux modèles.
Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.
Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Noor Bazmi
Noor Bazmi collabore avec l'équipe Cryptopolitan et est titulaire d'un diplôme en études des médias. Elle couvre l'actualité de la blockchain, des cryptomonnaies, de l'intelligence artificielle, des géants de la tech, du marché des véhicules électriques, de l'économie mondiale et des changements de politiques gouvernementales. Elle poursuit actuellement des études en marketing afin de toucher un public international.
LES
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)















