Le nouveau LLM d'OpenAI, o3, fait l'objet d'un examen minutieux après que des testsdent ont révélé qu'il résolvait un nombre de problèmes mathématiques difficiles bien inférieur à ce qu'avait initialement affirmé l'entreprise.
Lors du lancement d'o3 par OpenAI en décembre, les dirigeants ont déclaré que le modèle pouvait répondre à « un peu plus d'un quart » des problèmes de FrontierMath, un ensemble réputé difficile de casse-têtes mathématiques de niveau supérieur.
Selon eux, leur meilleur concurrent plafonnait aux alentours de 2 %. « Aujourd'hui, toutes les offres du marché affichent moins de 2 % », a déclaré Mark Chen, directeur de la recherche, lors de la présentation en direct . « Avec o3, dans des conditions de test intensives, nous parvenons à dépasser les 25 %. »
TechCrunch a rapporté que ce résultat a été obtenu par OpenAI sur une version d'o3 utilisant une puissance de calcul supérieure à celle du modèle publié par la société la semaine dernière..
Vendredi, l'institut de recherche Epoch AI, qui a créé FrontierMath, a publié son propre score pour le public o3.
OpenAI a publié o3, son modèle de raisonnement très attendu, ainsi que o4-mini, un modèle plus petit et moins cher qui succède à o3-mini.
Nous avons évalué les nouveaux modèles sur notre ensemble de tests de référence en mathématiques et en sciences. Résultats dans ce fil ! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) 18 avril 2025
En utilisant une version mise à jour de 290 questions du test de référence, Epoch a estimé le modèle à environ 10 %.
Le résultat correspond bien à une valeur minimale figurant dans le document technique d'OpenAI de décembre, et Epoch a averti que l'écart pourrait être dû à diverses raisons.
« La différence entre nos résultats et ceux d’OpenAI pourrait être due au fait qu’OpenAI utilise une infrastructure interne plus puissante pour l’évaluation, qu’il utilise davantage de calculs au moment du test, ou que ces résultats ont été obtenus sur un sous-ensemble différent de FrontierMath », a écrit .
FrontierMath a pour but de mesurer les progrès accomplis en matière de raisonnementmaticavancé. L'ensemble public de décembre 2024 contenait 180 problèmes, tandis que la mise à jour privée de février 2025 a porté ce nombre à 290.
Des modifications dans la liste des questions et dans la puissance de calcul autorisée au moment du test peuvent entraîner d'importantes variations dans les pourcentages rapportés.
OpenAI a confirmé que le modèle o3 public utilise moins de ressources de calcul que la version de démonstration
Des tests menés par la Fondation ARC Prize, qui a utilisé une version antérieure plus puissante, ont également mis en évidence les lacunes de la version commerciale d'o3. La version publique « repose sur un modèle différent… optimisé pour les messageries instantanées et les applications », a indiqué sur X, précisant que « toutes les versions d'o3 publiées sont moins performantes que celle que nous avons testée ».
Wenda Zhou, employé d'OpenAI, a fourni une explication similaire lors d'une diffusion en direct la semaine dernière. Le système de production, a-t-il déclaré, était « mieux optimisé pour les cas d'utilisation concrets » et pour la vitesse. « Nous avons procédé à des optimisations afin de rendre le modèle plus rentable et, de manière générale, plus utile », a affirmé M. Zhou, tout en reconnaissant d'éventuelles « disparités » par rapport aux performances de référence
Deux modèles plus petits de la société, o3‑mini‑high et le tout nouveau o4‑mini, ont déjà battu o3 sur FrontierMath, et OpenAI affirme qu'une meilleure variante o3‑pro arrivera dans les semaines à venir.
Cela montre néanmoins à quel point les titres des benchmarks peuvent être trompeurs. En janvier, Epoch a été critiqué pour avoir retardé la divulgation du financement d'OpenAI jusqu'après le lancement d'o3. Plus récemment, la start-up xAI d'Elon Musk a été accusée d'avoir présenté des graphiques surestimant les capacités de son modèle Grok 3.
Les observateurs du secteur affirment que de telles controverses autour des normes de référence deviennent monnaie courante dans l'industrie de l'IA, les entreprises se livrant une véritable course pour faire la une des journaux avec de nouveaux modèles.

