Die neueste LLM von Openai, O3, steht vor der Prüfung, nachdem unabhängigedent -Tests festgestellt hatten, dass es eine weitaus weniger Anzahl schwieriger mathematischer Probleme gelöst hat, als das Unternehmen zuerst behauptete.
Als Openai im Dezember O3 enthüllte, sagten Führungskräfte, das Modell könne „etwas mehr als viertes“ der Probleme in Frontiermath beantworten, eine notorisch harte Reihe von Mathematik -Rätseln auf Graduiertenebene.
Der beste Konkurrent, fügte sie hinzu, steckte fast 2%fest. "Heute haben alle Angebote weniger als 2%", sagte Chief Research Officer Mark Chen während O3 und O3 Mini Livestream . "Wir sehen, dass mit O3 in aggressiven Test -Time -Recheneinstellungen wir über 25%erreichen können."
TechCrunch berichtete , dass das Ergebnis von OpenAI über eine Version von O3 erzielt wurde, in der mehr Rechenleistung als das Modell verwendet wurde, das das Unternehmen letzte Woche veröffentlicht hat.
Am Freitag veröffentlichte das Research Institute EPOCH AI, das Frontiermath erstellte, eine eigene Punktzahl für die Öffentlichkeit O3.
OpenAI hat O3, ihr mit Spannung erwarteter Argumentationsmodell, zusammen mit O4-Mini veröffentlicht, einem kleineren und billigeren Modell, das O3-Mini nachfolgt.
Wir haben die neuen Modelle auf unserer Suite von Mathematik- und Wissenschaftsbenchmarks bewertet. Führt zu Thread! pic.twitter.com/5gbtzkey1b
- Epoch AI (@epochairesearch) 18. April 2025
Mit einer aktualisierten 290 -Question -Edition des Benchmarks legte Epoch das Modell auf etwa 10%.
Das Ergebnis stimmt mit einer Figur mit niedrigem Gebrauch im technischen Papier von OpenAI überein.
"Der Unterschied zwischen unseren Ergebnissen und den OpenAI könnte darauf zurückzuführen sein, dass OpenAI mit einem leistungsstärkeren internen Gerüst unter Verwendung von mehr Test -Time -Computing oder weil diese Ergebnisse auf einer anderen Teilmenge von Frontiermath durchgeführt wurden", schrieb .
Frontiermath soll den Fortschritt in Richtung fortschrittlicher Mathematikmatic-Al -Argumentation messen. Der öffentliche Set im Dezember 2024 enthielt 180 Probleme, während das private Update im Februar 2025 den Pool auf 290 erweiterte.
Verschiebungen in der Fragenliste und die Menge der zum Testzeit zulässigen Rechenleistung können in den gemeldeten Prozentsätzen zu großen Schwankungen führen.
OpenAI bestätigte, dass das öffentliche O3 -Modell weniger Computer verwendet als die Demo -Version
Beweise dafür, dass der kommerzielle O3 auch fehlt, stammt auch aus Tests der ARC -Preisstiftung, die einen früheren, größeren Build versuchten. Die Public Release „ist ein anderes Modell… abgestimmt für Chat/Produktgebrauch“, ARC Price Foundation veröffentlicht auf X und fügte hinzu, dass „alle veröffentlichten O3 -Rechenstufen kleiner sind als die von uns bewertete Version“.
Der OpenAI -Mitarbeiter Wenda Zhou hat letzte Woche während eines Livestreams eine ähnliche Erklärung angeboten. Das Produktionssystem, sagte er, sei „für Anwendungsfälle im realen Umfeld optimiert“ und Geschwindigkeit optimiert. "Wir haben [Optimierungen] durchgeführt, um das Modell im Allgemeinen effizienter [und] nützlicher zu machen", sagte Zhou und erkannte mögliche Benchmark "Unterschiede" an.
Zwei kleinere Modelle des Unternehmens, O3 -Mini -Hoch und die neu angekündigten O4 -Mini, haben bereits O3 bei Frontiermath geschlagen, und OpenAI sagt, dass in den kommenden Wochen eine bessere O3 -Pro -Variante eintreffen wird.
Trotzdem zeigt es, wie die Schlagzeilen von Benchmark irreführend sein können. Im Januar wurde Epoch kritisiert In jüngerer Zeit wurde Elon Musks Startup XAI beschuldigt, Diagramme vorzustellen, die die Fähigkeiten seines GROK 3 -Modells überbewertet haben.
Branchenbeobachter sagen, dass solche Benchmark -Kontroversen in der KI -Branche zu einem Ereignis werden, da Unternehmen mit neuen Modellen Schlagzeilen einnehmen.
Academy : Kurz DeFi