Le plus récent LLM d'Openai, O3, est confronté à un examen minutieux après que les testsdent ont trouvé que cela a résolu un nombre beaucoup moins de problèmes mathématiques difficiles que la société l'a prétendu pour la première fois.
Lorsque OpenAI a dévoilé l'O3 en décembre, les dirigeants ont déclaré que le modèle pourrait répondre «un peu plus d'un quatrième» des problèmes à FrontitierArt, un ensemble notoirement dur de puzzles mathématiques de niveau supérieur.
Le meilleur concurrent, ont-ils ajouté, était coincé près de 2%. "Aujourd'hui, toutes les offres ont moins de 2%", a déclaré le directeur des recherches Mark Chen lors de l'O3 et de l'O3 Mini Livestream . "Nous voyons, avec O3 dans les paramètres de calcul de test agressifs, nous sommes en mesure d'obtenir plus de 25%."
TechCrunch a rapporté que le résultat avait été obtenu par OpenAI sur une version d'O3 qui a utilisé plus de puissance de calcul que le modèle que la société a publié la semaine dernière.
Vendredi, l'Institut de recherche Epoch AI, qui a créé FrontitierArt, a publié sa propre partition pour le public O3.
OpenAI a publié O3, leur modèle de raisonnement très attendu, avec O4-MinI, un modèle plus petit et moins cher qui succède à O3-MinI.
Nous avons évalué les nouveaux modèles sur notre suite de références mathématiques et scientifiques. Résultats dans le fil! pic.twitter.com/5GBTZKEY1B
- Epoch Ai (@EpochaireSearch) 18 avril 2025
En utilisant une édition mise à jour à 290 questions de la référence, Epoch a mis le modèle à environ 10%.
Le résultat correspond à un chiffre à baisse du document technique d'Openai en décembre, et l'époque a averti que l'écart pourrait être dû à diverses raisons.
"La différence entre nos résultats et les OpenAI pourrait être due à l'évaluation d'OpenAI avec un échafaudage interne plus puissant, en utilisant plus de calcul des temps de test, ou parce que ces résultats ont été exécutés sur un sous-ensemble de frontiermath différent", a écrit .
Frontitierhath est conçu pour mesurer les progrès vers le raisonnement avancé dematicAL. L'ensemble public de décembre 2024 contenait 180 problèmes, tandis que la mise à jour privée de février 2025 a étendu la piscine à 290.
Les changements dans la liste de questions et la quantité de puissance de calcul autorisée au moment du test peuvent provoquer des oscillations importantes en pourcentages signalés.
OpenAI a confirmé que le modèle O3 public utilise moins de calcul que la version de démonstration
La preuve que l'O3 commercial fait défaut est également venue des tests par la Fondation ARC Prize, qui a essayé une construction antérieure et plus grande. La version publique «est un modèle différent… réglé pour le chat / utilisation des produits», ARC Price Foundation publié sur X, ajoutant que «tous les niveaux de calcul O3 publiés sont plus petits que la version que nous avons comparé».
L'employée d'Openai, Wenda Zhou, a offert une explication similaire lors d'un flux en direct la semaine dernière. Le système de production, a-t-il dit, a été «plus optimisé pour les cas d'utilisation réel» et la vitesse. "Nous avons fait [des optimisations] pour rendre le modèle plus rentable [et] plus utile en général", a déclaré Zhou, tout en reconnaissant des «disparités» de référence possibles.
Deux modèles plus petits de la société, O3-Mini - High et le nouvellement annoncé O4-Mini, ont déjà battu O3 sur Frontitiermath, et Openai dit qu'une meilleure variante O3-Pro arrivera dans les semaines à venir.
Pourtant, cela montre comment les titres de référence peuvent être trompeurs. En janvier, Epoch a été critiqué pour avoir retardé la divulgation du financement OpenAI jusqu'à ses débuts d'O3. Plus récemment, la startup d'Elon Musk XAI a été accusée d'avoir présenté des graphiques qui ont surestimé les capacités de son modèle Grok 3.
Les observateurs de l'industrie affirment que de telles controverses de référence deviennent un événement dans l'industrie de l'IA alors que les entreprises se précipitent pour faire les gros titres avec de nouveaux modèles.
Cryptopolitan Academy: fatiguée des balançoires du marché? Découvrez comment DeFi peut vous aider à créer un revenu passif stable. Inscrivez-vous maintenant