NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Das o3-Modell von OpenAI bleibt hinter seinen eigenen Benchmark-Ansprüchen zurück

VonNoor BazmiNoor Bazmi
Lesezeit: 2 Minuten,
Das o3-Modell von OpenAI bleibt hinter seinen eigenen Benchmark-Ansprüchen zurück
  • OpenAI behauptete, sein o3-Modell könne über 25 % der FrontierMath-Probleme lösen, doch neue Tests von Epoch AI zeigen, dass die öffentliche Version nur etwa 10 % lösen kann.
  • Der ARC Prize und ein OpenAI-Ingenieur bestätigen, dass das veröffentlichte Modell eine schlankere und schnellere Version ist, die speziell für die Nutzung im Chat optimiert wurde.
  • Auch Konkurrenzunternehmen wie xAI und Meta stehen wegen aufgeblähter Benchmark-Ergebnisse in der Kritik.

OpenAIs neuestes LLM-System, o3, steht unter Beobachtung, nachdemdent Tests ergaben, dass es weit weniger schwierige mathematische Probleme löste, als das Unternehmen ursprünglich behauptet hatte. 

Als OpenAI o3 im Dezember vorstellte, sagten Führungskräfte, das Modell könne „etwas mehr als ein Viertel“ der Probleme in FrontierMath lösen, einer bekanntermaßen sehr schwierigen Sammlung von mathematischen Rätseln auf Hochschulniveau.

Der beste Konkurrent, so fügten sie hinzu, dümpelte bei knapp 2 %. „Aktuell liegen alle Angebote auf dem Markt unter 2 %“, sagte Forschungsleiter Mark Chen während des o3- und o3-Mini- Livestreams. „Wir sehen, dass wir mit o3 unter anspruchsvollen Testbedingungen über 25 % erreichen können.“

TechCrunch berichtete , dass dieses Ergebnis von OpenAI mit einer Version von o3 erzielt wurde, die mehr Rechenleistung benötigte als das Modell, das das Unternehmen letzte Woche veröffentlicht hatte..

Am Freitag veröffentlichte das Forschungsinstitut Epoch AI, das FrontierMath entwickelt hat, seine eigene Punktzahl für die öffentliche o3-Prüfung.

Anhand einer aktualisierten Version des Benchmarks mit 290 Fragen ermittelte Epoch für das Modell einen Wert von etwa 10%.

Das Ergebnis stimmt mit einem unteren Grenzwert in OpenAIs technischem Papier vom Dezember überein, und Epoch wies darauf hin, dass die Diskrepanz verschiedene Ursachen haben könnte.

„Der Unterschied zwischen unseren Ergebnissen und denen von OpenAI könnte darauf zurückzuführen sein, dass OpenAI mit einem leistungsfähigeren internen Gerüst evaluiert, mehr Testzeit-Rechenleistung verwendet oder dass diese Ergebnisse auf einer anderen Teilmenge von FrontierMath basierten“, schrieb.

FrontierMath dient der Messung von Fortschritten im Bereich fortgeschrittenermaticFähigkeiten. Die öffentliche Version vom Dezember 2024 umfasste 180 Aufgaben, während das private Update vom Februar 2025 die Anzahl auf 290 Aufgaben erweiterte.

Änderungen in der Fragenliste und der während der Prüfung zur Verfügung stehenden Rechenleistung können große Schwankungen bei den gemeldeten Prozentwerten verursachen.

OpenAI bestätigte, dass das öffentliche o3-Modell weniger Rechenleistung benötigt als die Demoversion

Hinweise auf Mängel der kommerziellen o3-Version lieferten auch Tests der ARC Prize Foundation, die eine frühere, größere Version testete. Die öffentliche Version „ist ein anderes Modell … optimiert für Chat-/Produktnutzung“, schrieb auf X und fügte hinzu: „Alle veröffentlichten o3-Rechenleistungsstufen sind kleiner als die von uns getestete Version.“

OpenAI-Mitarbeiter Wenda Zhou lieferte vergangene Woche in einem Livestream eine ähnliche Erklärung. Das Produktionssystem sei, so Zhou, „besser auf reale Anwendungsfälle und Geschwindigkeit optimiert“. „Wir haben Optimierungen vorgenommen, um das Modell kosteneffizienter und allgemein nützlicher zu machen“, sagte Zhou und räumte gleichzeitig mögliche Unterschiede bei den Benchmarks ein

Zwei kleinere Modelle des Unternehmens, o3‐mini‐high und das neu angekündigte o4‐mini, haben o3 bereits bei FrontierMath geschlagen, und OpenAI kündigt an, dass in den kommenden Wochen eine verbesserte o3‐pro-Variante erscheinen wird.

Dennoch zeigt es, wie irreführend Benchmark-Schlagzeilen sein können. Im Januar wurde Epoch dafür kritisiert, die Finanzierung von OpenAI erst nach dem Debüt von o3 offengelegt zu haben. Kürzlich wurde Elon Musks Startup xAI vorgeworfen, Diagramme präsentiert zu haben, die die Leistungsfähigkeit seines Grok-3-Modells übertrieben darstellten.

Branchenbeobachter sagen, dass solche Benchmark-Kontroversen in der KI-Branche immer häufiger vorkommen, da die Unternehmen darum wetteifern, mit neuen Modellen Schlagzeilen zu machen.

Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Noor Bazmi

Noor Bazmi

Noor Bazmi ist Mitglied des Cryptopolitan -Nachrichtenteams und hat einen Abschluss in Medienwissenschaften. Sie berichtet über Blockchain, Kryptowährungen, künstliche Intelligenz, Big Tech, den Markt für Elektrofahrzeuge, die Weltwirtschaft und politische Kurswechsel. Um ein internationales Publikum zu erreichen, absolviert sie derzeit ein Marketingstudium.

MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS