COMING SOON: A New Way to Earn Passive Income with DeFi in 2025 LEARN MORE

Das O3 -Modell von OpenAI fällt außer seinen eigenen Benchmark -Ansprüchen ab

In diesem Beitrag:

  • OpenAI behauptete, dass sein O3 -Modell über 25% der Frontiermath -Probleme lösen könnte, aber neue Tests von Epoch AI zeigen, dass die öffentliche Version etwa 10% lösen kann.
  • Der ARC -Preis und ein OpenAI -Ingenieur bestätigen, dass das freigegebene Modell ein schlankerer und schnellerer Build für die Chat -Nutzung ist.
  • Konkurrentunternehmen, darunter XAI und Meta, stehen ebenfalls nach aufgeblähten Benchmark -Ergebnissen.

Die neueste LLM von Openai, O3, steht vor der Prüfung, nachdem unabhängigedent -Tests festgestellt hatten, dass es eine weitaus weniger Anzahl schwieriger mathematischer Probleme gelöst hat, als das Unternehmen zuerst behauptete. 

Als Openai im Dezember O3 enthüllte, sagten Führungskräfte, das Modell könne „etwas mehr als viertes“ der Probleme in Frontiermath beantworten, eine notorisch harte Reihe von Mathematik -Rätseln auf Graduiertenebene.

Der beste Konkurrent, fügte sie hinzu, steckte fast 2%fest. "Heute haben alle Angebote weniger als 2%", sagte Chief Research Officer Mark Chen während O3 und O3 Mini Livestream . "Wir sehen, dass mit O3 in aggressiven Test -Time -Recheneinstellungen wir über 25%erreichen können."

TechCrunch berichtete , dass das Ergebnis von OpenAI über eine Version von O3 erzielt wurde, in der mehr Rechenleistung als das Modell verwendet wurde, das das Unternehmen letzte Woche veröffentlicht hat.

Am Freitag veröffentlichte das Research Institute EPOCH AI, das Frontiermath erstellte, eine eigene Punktzahl für die Öffentlichkeit O3.

Mit einer aktualisierten 290 -Question -Edition des Benchmarks legte Epoch das Modell auf etwa 10%.

Das Ergebnis stimmt mit einer Figur mit niedrigem Gebrauch im technischen Papier von OpenAI überein.

Siehe auch  EURC gewinnt im April Popularität, trac King The Euro Rallye

"Der Unterschied zwischen unseren Ergebnissen und den OpenAI könnte darauf zurückzuführen sein, dass OpenAI mit einem leistungsstärkeren internen Gerüst unter Verwendung von mehr Test -Time -Computing oder weil diese Ergebnisse auf einer anderen Teilmenge von Frontiermath durchgeführt wurden", schrieb .

Frontiermath soll den Fortschritt in Richtung fortschrittlicher Mathematikmatic-Al -Argumentation messen. Der öffentliche Set im Dezember 2024 enthielt 180 Probleme, während das private Update im Februar 2025 den Pool auf 290 erweiterte.

Verschiebungen in der Fragenliste und die Menge der zum Testzeit zulässigen Rechenleistung können in den gemeldeten Prozentsätzen zu großen Schwankungen führen.

OpenAI bestätigte, dass das öffentliche O3 -Modell weniger Computer verwendet als die Demo -Version

Beweise dafür, dass der kommerzielle O3 auch fehlt, stammt auch aus Tests der ARC -Preisstiftung, die einen früheren, größeren Build versuchten. Die Public Release „ist ein anderes Modell… abgestimmt für Chat/Produktgebrauch“, ARC Price Foundation veröffentlicht auf X und fügte hinzu, dass „alle veröffentlichten O3 -Rechenstufen kleiner sind als die von uns bewertete Version“.

Der OpenAI -Mitarbeiter Wenda Zhou hat letzte Woche während eines Livestreams eine ähnliche Erklärung angeboten. Das Produktionssystem, sagte er, sei „für Anwendungsfälle im realen Umfeld optimiert“ und Geschwindigkeit optimiert. "Wir haben [Optimierungen] durchgeführt, um das Modell im Allgemeinen effizienter [und] nützlicher zu machen", sagte Zhou und erkannte mögliche Benchmark "Unterschiede" an.

Zwei kleinere Modelle des Unternehmens, O3 -Mini -Hoch und die neu angekündigten O4 -Mini, haben bereits O3 bei Frontiermath geschlagen, und OpenAI sagt, dass in den kommenden Wochen eine bessere O3 -Pro -Variante eintreffen wird.

Siehe auch  Tesla versteckt 97 Millionen US -Dollar Bitcoin -Verlust im bereinigten Gewinnbericht

Trotzdem zeigt es, wie die Schlagzeilen von Benchmark irreführend sein können. Im Januar wurde Epoch kritisiert In jüngerer Zeit wurde Elon Musks Startup XAI beschuldigt, Diagramme vorzustellen, die die Fähigkeiten seines GROK 3 -Modells überbewertet haben.

Branchenbeobachter sagen, dass solche Benchmark -Kontroversen in der KI -Branche zu einem Ereignis werden, da Unternehmen mit neuen Modellen Schlagzeilen einnehmen.

Academy : Kurz DeFi

Einen Link teilen:

Haftungsausschluss. Die bereitgestellten Informationen sind keine Handelsberatung. Cryptopolitan.com haftet nicht für Investitionen, die auf der Grundlage der auf dieser Seite bereitgestellten Informationen getätigt wurden. Wir tron dringend unabhängige dent und/oder Beratung durch einen qualifizierten Fachmann, bevor Sie Anlageentscheidungen treffen.

Meist gelesen

Die meisten gelesenen Artikel werden geladen...

Bleiben Sie über Krypto-Neuigkeiten auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang

Wahl des Herausgebers

Editor's Choice-Artikel werden geladen...

- Der Krypto -Newsletter, der Sie auf dem Laufenden halten -

Die Märkte bewegen sich schnell.

Wir bewegen uns schneller.

Abonnieren Sie täglich Kryptopolitan und erhalten Sie zeitnah, scharf und relevante Krypto -Erkenntnisse direkt in Ihren Posteingang.

Machen Sie jetzt mit und
verpassen Sie nie einen Schritt.

Steigen Sie ein. Holen Sie sich die Fakten.
Voranschreiten.

Abonnieren Sie CryptoPolitan