Your bank is using your money. You’re getting the scraps.WATCH FREE

Le modèle o3 d'OpenAI n'atteint pas les performances annoncées par ses propres analystes

Dans cet article :

  • OpenAI affirmait que son modèle o3 pouvait résoudre plus de 25 % des problèmes de FrontierMath, mais de nouveaux tests effectués par Epoch AI révèlent que la version publique ne peut en résoudre qu'environ 10 %.
  • Le prix ARC et un ingénieur d'OpenAI confirment que le modèle publié est une version plus légère et plus rapide, optimisée pour une utilisation dans les messageries instantanées.
  • Les entreprises concurrentes, notamment xAI et Meta, font également l'objet d'un examen minutieux en raison de résultats de référence gonflés.

Le nouveau LLM d'OpenAI, o3, fait l'objet d'un examen minutieux après que des testsdent ont révélé qu'il résolvait un nombre de problèmes mathématiques difficiles bien inférieur à ce qu'avait initialement affirmé l'entreprise. 

Lors du lancement d'o3 par OpenAI en décembre, les dirigeants ont déclaré que le modèle pouvait répondre à « un peu plus d'un quart » des problèmes de FrontierMath, un ensemble réputé difficile de casse-têtes mathématiques de niveau supérieur.

Selon eux, leur meilleur concurrent plafonnait aux alentours de 2 %. « Aujourd'hui, toutes les offres du marché affichent moins de 2 % », a déclaré Mark Chen, directeur de la recherche, lors de la présentation en direct . « Avec o3, dans des conditions de test intensives, nous parvenons à dépasser les 25 %. »

TechCrunch a rapporté que ce résultat a été obtenu par OpenAI sur une version d'o3 utilisant une puissance de calcul supérieure à celle du modèle publié par la société la semaine dernière..

Vendredi, l'institut de recherche Epoch AI, qui a créé FrontierMath, a publié son propre score pour le public o3.

En utilisant une version mise à jour de 290 questions du test de référence, Epoch a estimé le modèle à environ 10 %.

Le résultat correspond bien à une valeur minimale figurant dans le document technique d'OpenAI de décembre, et Epoch a averti que l'écart pourrait être dû à diverses raisons.

Voir aussi  Le développeur ukrainien Andriy Kostiushko annonce Threads of War : une collaboration unique

« La différence entre nos résultats et ceux d’OpenAI pourrait être due au fait qu’OpenAI utilise une infrastructure interne plus puissante pour l’évaluation, qu’il utilise davantage de calculs au moment du test, ou que ces résultats ont été obtenus sur un sous-ensemble différent de FrontierMath », a écrit .

FrontierMath a pour but de mesurer les progrès accomplis en matière de raisonnementmaticavancé. L'ensemble public de décembre 2024 contenait 180 problèmes, tandis que la mise à jour privée de février 2025 a porté ce nombre à 290.

Des modifications dans la liste des questions et dans la puissance de calcul autorisée au moment du test peuvent entraîner d'importantes variations dans les pourcentages rapportés.

OpenAI a confirmé que le modèle o3 public utilise moins de ressources de calcul que la version de démonstration

Des tests menés par la Fondation ARC Prize, qui a utilisé une version antérieure plus puissante, ont également mis en évidence les lacunes de la version commerciale d'o3. La version publique « repose sur un modèle différent… optimisé pour les messageries instantanées et les applications », a indiqué sur X, précisant que « toutes les versions d'o3 publiées sont moins performantes que celle que nous avons testée ».

Wenda Zhou, employé d'OpenAI, a fourni une explication similaire lors d'une diffusion en direct la semaine dernière. Le système de production, a-t-il déclaré, était « mieux optimisé pour les cas d'utilisation concrets » et pour la vitesse. « Nous avons procédé à des optimisations afin de rendre le modèle plus rentable et, de manière générale, plus utile », a affirmé M. Zhou, tout en reconnaissant d'éventuelles « disparités » par rapport aux performances de référence

Deux modèles plus petits de la société, o3‑mini‑high et le tout nouveau o4‑mini, ont déjà battu o3 sur FrontierMath, et OpenAI affirme qu'une meilleure variante o3‑pro arrivera dans les semaines à venir.

Voir aussi  ENS Labs va lancer Namechain, un réseau de couche 2 utilisant des agrégations à connaissance nulle

Cela montre néanmoins à quel point les titres des benchmarks peuvent être trompeurs. En janvier, Epoch a été critiqué pour avoir retardé la divulgation du financement d'OpenAI jusqu'après le lancement d'o3. Plus récemment, la start-up xAI d'Elon Musk a été accusée d'avoir présenté des graphiques surestimant les capacités de son modèle Grok 3.

Les observateurs du secteur affirment que de telles controverses autour des normes de référence deviennent monnaie courante dans l'industrie de l'IA, les entreprises se livrant une véritable course pour faire la une des journaux avec de nouveaux modèles.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit .

Partager le lien :

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. Cryptopolitan.com Cryptopolitan toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous vous recommandons vivement d’effectuer vos tron dent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Articles les plus lus

Chargement des articles les plus lus...

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Chargement des articles sélectionnés par la rédaction...

- La newsletter crypto qui vous donne une longueur d'avance -

Les marchés évoluent rapidement.

Nous avançons plus vite.

Abonnez-vous à Cryptopolitan Daily et recevez directement dans votre boîte mail des informations crypto pertinentes, pointues et actualisées.

Inscrivez-vous maintenant et
ne manquez plus aucun mouvement.

Entrez. Renseignez-vous.
Prenez de l'avance.

Abonnez-vous à CryptoPolitan