DERNIÈRES NOUVELLES

L'ancien joueur de la NBA, Tristan Thompson, fait la une des journaux en réclamant 2 millions de dollars et en exigeant une vasectomie

d'il y a 3 heures Actualités
Des pirates informatiques ont dérobé 5,4 millions de dollars sur le pont Ethereum - Cosmos de Gravity

d'il y a 6 heures Actualités
Un investisseur crypto de renom mise de manière inattendue 31,5 millions de dollars sur Microsoft et Oracle

d'il y a 7 heures Actualités
Bitdeer vend tous Bitcoin minés pour la 14e semaine consécutive et ne détient plus aucun BTC

d'il y a 9 heures Actualités

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Le modèle o3 d'OpenAI n'atteint pas les performances annoncées par ses propres analystes

Par

Noor Bazmi

Temps de lecture : 2 minutes - 21 avril 2025

Le modèle o3 d'OpenAI n'atteint pas les performances annoncées par ses propres analystes

OpenAI affirmait que son modèle o3 pouvait résoudre plus de 25 % des problèmes de FrontierMath, mais de nouveaux tests effectués par Epoch AI révèlent que la version publique ne peut en résoudre qu'environ 10 %.
Le prix ARC et un ingénieur d'OpenAI confirment que le modèle publié est une version plus légère et plus rapide, optimisée pour une utilisation dans les messageries instantanées.
Les entreprises concurrentes, notamment xAI et Meta, font également l'objet d'un examen minutieux en raison de résultats de référence gonflés.

Le nouveau LLM d'OpenAI, o3, fait l'objet d'un examen minutieux après que des testsdent ont révélé qu'il résolvait un nombre de problèmes mathématiques difficiles bien inférieur à ce qu'avait initialement affirmé l'entreprise.

Lors du lancement d'o3 par OpenAI en décembre, les dirigeants ont déclaré que le modèle pouvait répondre à « un peu plus d'un quart » des problèmes de FrontierMath, un ensemble réputé difficile de casse-têtes mathématiques de niveau supérieur.

Selon eux, leur meilleur concurrent plafonnait aux alentours de 2 %. « Aujourd'hui, toutes les offres du marché affichent moins de 2 % », a déclaré Mark Chen, directeur de la recherche, lors de la présentation en direct. « Avec o3, dans des conditions de test intensives, nous parvenons à dépasser les 25 %. »

TechCrunch a rapporté que ce résultat a été obtenu par OpenAI sur une version d'o3 utilisant une puissance de calcul supérieure à celle du modèle publié par la société la semaine dernière..

Vendredi, l'institut de recherche Epoch AI, qui a créé FrontierMath, a publié son propre score pour le public o3.

OpenAI a publié o3, son modèle de raisonnement très attendu, ainsi que o4-mini, un modèle plus petit et moins cher qui succède à o3-mini.

Nous avons évalué les nouveaux modèles sur notre ensemble de tests de référence en mathématiques et en sciences. Résultats dans ce fil ! pic.twitter.com/5gbtzkEy1B

— Epoch AI (@EpochAIResearch) 18 avril 2025

En utilisant une version mise à jour de 290 questions du test de référence, Epoch a estimé le modèle à environ 10 %.

Le résultat correspond bien à une valeur minimale figurant dans le document technique d'OpenAI de décembre, et Epoch a averti que l'écart pourrait être dû à diverses raisons.

« La différence entre nos résultats et ceux d’OpenAI pourrait être due au fait qu’OpenAI utilise une infrastructure interne plus puissante pour l’évaluation, qu’il utilise davantage de calculs au moment du test, ou que ces résultats ont été obtenus sur un sous-ensemble différent de FrontierMath », a écrit.

FrontierMath a pour but de mesurer les progrès accomplis en matière de raisonnementmaticavancé. L'ensemble public de décembre 2024 contenait 180 problèmes, tandis que la mise à jour privée de février 2025 a porté ce nombre à 290.

Des modifications dans la liste des questions et dans la puissance de calcul autorisée au moment du test peuvent entraîner d'importantes variations dans les pourcentages rapportés.

OpenAI a confirmé que le modèle o3 public utilise moins de ressources de calcul que la version de démonstration

Des tests menés par la Fondation ARC Prize, qui a utilisé une version antérieure plus puissante, ont également mis en évidence les lacunes de la version commerciale d'o3. La version publique « repose sur un modèle différent… optimisé pour les messageries instantanées et les applications », a indiqué sur X, précisant que « toutes les versions d'o3 publiées sont moins performantes que celle que nous avons testée ».

Wenda Zhou, employé d'OpenAI, a fourni une explication similaire lors d'une diffusion en direct la semaine dernière. Le système de production, a-t-il déclaré, était « mieux optimisé pour les cas d'utilisation concrets » et pour la vitesse. « Nous avons procédé à des optimisations afin de rendre le modèle plus rentable et, de manière générale, plus utile », a affirmé M. Zhou, tout en reconnaissant d'éventuelles « disparités » par rapport aux performances de référence

Deux modèles plus petits de la société, o3‑mini‑high et le tout nouveau o4‑mini, ont déjà battu o3 sur FrontierMath, et OpenAI affirme qu'une meilleure variante o3‑pro arrivera dans les semaines à venir.

Cela montre néanmoins à quel point les titres des benchmarks peuvent être trompeurs. En janvier, Epoch a été critiqué pour avoir retardé la divulgation du financement d'OpenAI jusqu'après le lancement d'o3. Plus récemment, la start-up xAI d'Elon Musk a été accusée d'avoir présenté des graphiques surestimant les capacités de son modèle Grok 3.

Les observateurs du secteur affirment que de telles controverses autour des normes de référence deviennent monnaie courante dans l'industrie de l'IA, les entreprises se livrant une véritable course pour faire la une des journaux avec de nouveaux modèles.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

OpenAI

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Noor Bazmi

Noor Bazmi collabore avec l'équipe Cryptopolitan et est titulaire d'un diplôme en études des médias. Elle couvre l'actualité de la blockchain, des cryptomonnaies, de l'intelligence artificielle, des géants de la tech, du marché des véhicules électriques, de l'économie mondiale et des changements de politiques gouvernementales. Elle poursuit actuellement des études en marketing afin de toucher un public international.

TABLE DES MATIÈRES

1. OpenAI a confirmé que le modèle o3 public utilise moins de ressources de calcul que la version de démonstration

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, technicien John Palmer,

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, technicien John Palmer,

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)