NEUESTE NACHRICHTEN

American Bitcoin, Strive kauft weiterhin Bitcoin während Strategy 3.588 BTC verkauft

Nachrichten vor 1 Stunde
Die TeraWulf-Aktie stieg nach dem 19 Milliarden Dollar schweren Mietvertrag für ein Anthropic-Rechenzentrum um 17 %

Nachrichten vor 1 Stunde
China nimmt in der ersten Phase der Kampagne „Das Internet säubern“ 14.000 KI-Produkte ins Visier

Vor 2 Stunden Technik
SpaceX spendet Aktien an Trump-Konten, während Trump seine Präsidentschaft auf den Markt setzt

vor 3 Stunden Wirtschaft

FÜR SIE AUSGEWÄHLT

Das o3-Modell von OpenAI bleibt hinter seinen eigenen Benchmark-Ansprüchen zurück

Von

Noor Bazmi

Lesezeit: 2 Minuten, 21. April 2025

Das o3-Modell von OpenAI bleibt hinter seinen eigenen Benchmark-Ansprüchen zurück

OpenAI behauptete, sein o3-Modell könne über 25 % der FrontierMath-Probleme lösen, doch neue Tests von Epoch AI zeigen, dass die öffentliche Version nur etwa 10 % lösen kann.
Der ARC Prize und ein OpenAI-Ingenieur bestätigen, dass das veröffentlichte Modell eine schlankere und schnellere Version ist, die speziell für die Nutzung im Chat optimiert wurde.
Auch Konkurrenzunternehmen wie xAI und Meta stehen wegen aufgeblähter Benchmark-Ergebnisse in der Kritik.

OpenAIs neuestes LLM-System, o3, steht unter Beobachtung, nachdemdent Tests ergaben, dass es weit weniger schwierige mathematische Probleme löste, als das Unternehmen ursprünglich behauptet hatte.

Als OpenAI o3 im Dezember vorstellte, sagten Führungskräfte, das Modell könne „etwas mehr als ein Viertel“ der Probleme in FrontierMath lösen, einer bekanntermaßen sehr schwierigen Sammlung von mathematischen Rätseln auf Hochschulniveau.

Der beste Konkurrent, so fügten sie hinzu, dümpelte bei knapp 2 %. „Aktuell liegen alle Angebote auf dem Markt unter 2 %“, sagte Forschungsleiter Mark Chen während des o3- und o3-Mini- Livestreams. „Wir sehen, dass wir mit o3 unter anspruchsvollen Testbedingungen über 25 % erreichen können.“

TechCrunch berichtete , dass dieses Ergebnis von OpenAI mit einer Version von o3 erzielt wurde, die mehr Rechenleistung benötigte als das Modell, das das Unternehmen letzte Woche veröffentlicht hatte..

Am Freitag veröffentlichte das Forschungsinstitut Epoch AI, das FrontierMath entwickelt hat, seine eigene Punktzahl für die öffentliche o3-Prüfung.

OpenAI hat o3, sein mit Spannung erwartetes Reasoning-Modell, sowie o4-mini, ein kleineres und günstigeres Modell als Nachfolger von o3-mini, veröffentlicht.

Wir haben die neuen Modelle anhand unserer Mathematik- und Naturwissenschafts-Benchmarks evaluiert. Ergebnisse im Thread! pic.twitter.com/5gbtzkEy1B

— Epoch AI (@EpochAIResearch) 18. April 2025

Anhand einer aktualisierten Version des Benchmarks mit 290 Fragen ermittelte Epoch für das Modell einen Wert von etwa 10%.

Das Ergebnis stimmt mit einem unteren Grenzwert in OpenAIs technischem Papier vom Dezember überein, und Epoch wies darauf hin, dass die Diskrepanz verschiedene Ursachen haben könnte.

„Der Unterschied zwischen unseren Ergebnissen und denen von OpenAI könnte darauf zurückzuführen sein, dass OpenAI mit einem leistungsfähigeren internen Gerüst evaluiert, mehr Testzeit-Rechenleistung verwendet oder dass diese Ergebnisse auf einer anderen Teilmenge von FrontierMath basierten“, schrieb.

FrontierMath dient der Messung von Fortschritten im Bereich fortgeschrittenermaticFähigkeiten. Die öffentliche Version vom Dezember 2024 umfasste 180 Aufgaben, während das private Update vom Februar 2025 die Anzahl auf 290 Aufgaben erweiterte.

Änderungen in der Fragenliste und der während der Prüfung zur Verfügung stehenden Rechenleistung können große Schwankungen bei den gemeldeten Prozentwerten verursachen.

OpenAI bestätigte, dass das öffentliche o3-Modell weniger Rechenleistung benötigt als die Demoversion

Hinweise auf Mängel der kommerziellen o3-Version lieferten auch Tests der ARC Prize Foundation, die eine frühere, größere Version testete. Die öffentliche Version „ist ein anderes Modell … optimiert für Chat-/Produktnutzung“, schrieb auf X und fügte hinzu: „Alle veröffentlichten o3-Rechenleistungsstufen sind kleiner als die von uns getestete Version.“

OpenAI-Mitarbeiter Wenda Zhou lieferte vergangene Woche in einem Livestream eine ähnliche Erklärung. Das Produktionssystem sei, so Zhou, „besser auf reale Anwendungsfälle und Geschwindigkeit optimiert“. „Wir haben Optimierungen vorgenommen, um das Modell kosteneffizienter und allgemein nützlicher zu machen“, sagte Zhou und räumte gleichzeitig mögliche Unterschiede bei den Benchmarks ein

Zwei kleinere Modelle des Unternehmens, o3‐mini‐high und das neu angekündigte o4‐mini, haben o3 bereits bei FrontierMath geschlagen, und OpenAI kündigt an, dass in den kommenden Wochen eine verbesserte o3‐pro-Variante erscheinen wird.

Dennoch zeigt es, wie irreführend Benchmark-Schlagzeilen sein können. Im Januar wurde Epoch dafür kritisiert, die Finanzierung von OpenAI erst nach dem Debüt von o3 offengelegt zu haben. Kürzlich wurde Elon Musks Startup xAI vorgeworfen, Diagramme präsentiert zu haben, die die Leistungsfähigkeit seines Grok-3-Modells übertrieben darstellten.

Branchenbeobachter sagen, dass solche Benchmark-Kontroversen in der KI-Branche immer häufiger vorkommen, da die Unternehmen darum wetteifern, mit neuen Modellen Schlagzeilen zu machen.

Wenn Sie das hier lesen, sind Sie schon einen Schritt voraus. Bleiben Sie mit unserem Newsletter auf dem Laufenden.

OpenAI

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Noor Bazmi

Noor Bazmi ist Mitglied des Cryptopolitan -Nachrichtenteams und hat einen Abschluss in Medienwissenschaften. Sie berichtet über Blockchain, Kryptowährungen, künstliche Intelligenz, Big Tech, den Markt für Elektrofahrzeuge, die Weltwirtschaft und politische Kurswechsel. Um ein internationales Publikum zu erreichen, absolviert sie derzeit ein Marketingstudium.

INHALTSVERZEICHNIS

1. OpenAI bestätigte, dass das öffentliche o3-Modell weniger Rechenleistung benötigt als die Demoversion

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

Das o3-Modell von OpenAI bleibt hinter seinen eigenen Benchmark-Ansprüchen zurück

OpenAI bestätigte, dass das öffentliche o3-Modell weniger Rechenleistung benötigt als die Demoversion

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

Das o3-Modell von OpenAI bleibt hinter seinen eigenen Benchmark-Ansprüchen zurück

OpenAI bestätigte, dass das öffentliche o3-Modell weniger Rechenleistung benötigt als die Demoversion

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.