DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Le modèle o3 d'OpenAI n'atteint pas les performances annoncées par ses propres analystes

ParNoor BazmiNoor Bazmi
Temps de lecture : 2 minutes
Le modèle o3 d'OpenAI n'atteint pas les performances annoncées par ses propres analystes
  • OpenAI affirmait que son modèle o3 pouvait résoudre plus de 25 % des problèmes de FrontierMath, mais de nouveaux tests effectués par Epoch AI révèlent que la version publique ne peut en résoudre qu'environ 10 %.
  • Le prix ARC et un ingénieur d'OpenAI confirment que le modèle publié est une version plus légère et plus rapide, optimisée pour une utilisation dans les messageries instantanées.
  • Les entreprises concurrentes, notamment xAI et Meta, font également l'objet d'un examen minutieux en raison de résultats de référence gonflés.

Le nouveau LLM d'OpenAI, o3, fait l'objet d'un examen minutieux après que des testsdent ont révélé qu'il résolvait un nombre de problèmes mathématiques difficiles bien inférieur à ce qu'avait initialement affirmé l'entreprise. 

Lors du lancement d'o3 par OpenAI en décembre, les dirigeants ont déclaré que le modèle pouvait répondre à « un peu plus d'un quart » des problèmes de FrontierMath, un ensemble réputé difficile de casse-têtes mathématiques de niveau supérieur.

Selon eux, leur meilleur concurrent plafonnait aux alentours de 2 %. « Aujourd'hui, toutes les offres du marché affichent moins de 2 % », a déclaré Mark Chen, directeur de la recherche, lors de la présentation en direct. « Avec o3, dans des conditions de test intensives, nous parvenons à dépasser les 25 %. »

TechCrunch a rapporté que ce résultat a été obtenu par OpenAI sur une version d'o3 utilisant une puissance de calcul supérieure à celle du modèle publié par la société la semaine dernière..

Vendredi, l'institut de recherche Epoch AI, qui a créé FrontierMath, a publié son propre score pour le public o3.

En utilisant une version mise à jour de 290 questions du test de référence, Epoch a estimé le modèle à environ 10 %.

Le résultat correspond bien à une valeur minimale figurant dans le document technique d'OpenAI de décembre, et Epoch a averti que l'écart pourrait être dû à diverses raisons.

« La différence entre nos résultats et ceux d’OpenAI pourrait être due au fait qu’OpenAI utilise une infrastructure interne plus puissante pour l’évaluation, qu’il utilise davantage de calculs au moment du test, ou que ces résultats ont été obtenus sur un sous-ensemble différent de FrontierMath », a écrit.

FrontierMath a pour but de mesurer les progrès accomplis en matière de raisonnementmaticavancé. L'ensemble public de décembre 2024 contenait 180 problèmes, tandis que la mise à jour privée de février 2025 a porté ce nombre à 290.

Des modifications dans la liste des questions et dans la puissance de calcul autorisée au moment du test peuvent entraîner d'importantes variations dans les pourcentages rapportés.

OpenAI a confirmé que le modèle o3 public utilise moins de ressources de calcul que la version de démonstration

Des tests menés par la Fondation ARC Prize, qui a utilisé une version antérieure plus puissante, ont également mis en évidence les lacunes de la version commerciale d'o3. La version publique « repose sur un modèle différent… optimisé pour les messageries instantanées et les applications », a indiqué sur X, précisant que « toutes les versions d'o3 publiées sont moins performantes que celle que nous avons testée ».

Wenda Zhou, employé d'OpenAI, a fourni une explication similaire lors d'une diffusion en direct la semaine dernière. Le système de production, a-t-il déclaré, était « mieux optimisé pour les cas d'utilisation concrets » et pour la vitesse. « Nous avons procédé à des optimisations afin de rendre le modèle plus rentable et, de manière générale, plus utile », a affirmé M. Zhou, tout en reconnaissant d'éventuelles « disparités » par rapport aux performances de référence

Deux modèles plus petits de la société, o3‑mini‑high et le tout nouveau o4‑mini, ont déjà battu o3 sur FrontierMath, et OpenAI affirme qu'une meilleure variante o3‑pro arrivera dans les semaines à venir.

Cela montre néanmoins à quel point les titres des benchmarks peuvent être trompeurs. En janvier, Epoch a été critiqué pour avoir retardé la divulgation du financement d'OpenAI jusqu'après le lancement d'o3. Plus récemment, la start-up xAI d'Elon Musk a été accusée d'avoir présenté des graphiques surestimant les capacités de son modèle Grok 3.

Les observateurs du secteur affirment que de telles controverses autour des normes de référence deviennent monnaie courante dans l'industrie de l'IA, les entreprises se livrant une véritable course pour faire la une des journaux avec de nouveaux modèles.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Noor Bazmi

Noor Bazmi

Noor Bazmi collabore avec l'équipe Cryptopolitan et est titulaire d'un diplôme en études des médias. Elle couvre l'actualité de la blockchain, des cryptomonnaies, de l'intelligence artificielle, des géants de la tech, du marché des véhicules électriques, de l'économie mondiale et des changements de politiques gouvernementales. Elle poursuit actuellement des études en marketing afin de toucher un public international.

PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES