OpenAI hat endlich das KI-Modell GPT 4.5 vorgestellt, doch es ist bei bestimmten Aufgaben weniger leistungsfähig als die Konkurrenz

Von

Shummas Humayun

Lesezeit: 4 Minuten , 1. März 2025

OpenAI hat nun endlich sein größtes KI-Modell, GPT-4.5 mit dem Codenamen „Orion“, vorgestellt.
GPT-4.5 hinkt im Vergleich zu Konkurrenten wie Anthropics Claude 3.7 Sonnet bei akademischen Aufgaben hinterher.
Es erzeugt wärmere Reaktionen im Vergleich zu 4o und o3-mini.

OpenAI hat GPT-4.5 mit dem Codenamen Orion vorgestellt und damit sein bisher größtes Modell entwickelt. Viele in der Tech-Community haben den nächsten Schritt in der GPT-Modellreihe mit Spannung erwartet, die bereits in der Vergangenheitmatic Fortschritte in Bereichen wie Schreiben, Mathematik, Programmierung und anderen Gebieten erzielt hat.

Das Unternehmen hat GPT-4.5 schrittweise eingeführt. Abonnenten des ChatGPT Pro-Tarifs für 200 US-Dollar pro Monat erhalten sofortigen Zugriff im Rahmen einer Forschungsvorschau. Entwickler mit kostenpflichtigen API-Abonnements von OpenAI können ebenfalls direkt auf GPT-4.5 zugreifen. Kunden von ChatGPT Plus und ChatGPT Team folgen als Nächstes; laut einem OpenAI-Sprecher soll das neue Modell ihnen voraussichtlich nächste Woche zur Verfügung stehen. Die schrittweise Veröffentlichung ist laut OpenAI unter anderem auf den enormen Rechenaufwand dieses komplexen Systems zurückzuführen.

Heute veröffentlichen wir eine Forschungsvorschau von GPT-4.5 – unserem bisher größten und besten Modell für Chat.

Die Einführung beginnt jetzt für alle ChatGPT Pro-Nutzer, gefolgt von Plus- und Team-Nutzern nächste Woche und Enterprise- und Edu-Nutzern in der darauffolgenden Woche. pic.twitter.com/br5win5OEB
— OpenAI (@OpenAI) 27. Februar 2025

In Technologiekreisen gilt die Veröffentlichung von GPT-4.5 als Indikator dafür, ob traditionelle Trainingsmethoden – vor allem die Erhöhung der Datenmenge und der Rechenressourcen – weiterhin signifikante Leistungssteigerungen ermöglichen. Bislang folgte die GPT-Reihe einem recht vorhersehbaren Muster. Versionen wie GPT-1, GPT-2, GPT-3 und GPT-4 erzielten bemerkenswerte Leistungssprünge, sobald OpenAI mehr Rechenleistung einsetzte und mehr Trainingsdaten verwendete.

In jeder Generation stiegen die Leistungsstandards inmatic, Schreibkompetenz, Programmierung und anderen Kategorienmatican. GPT-4.5 will diesen Trend mit dem, was das Unternehmen als „tieferes Weltwissen“ und „höhere emotionale Intelligenz“ bezeichnet, fortsetzen. Gleichzeitig deuten die Ergebnisse von GPT-4.5 in bestimmten Tests jedoch darauf hin, dass die Vorteile einer reinen Skalierung möglicherweise nicht mehr so stark zum Tragen kommen.

Die anfänglichen Merkmale und Einschränkungen von GPT-4.5

OpenAI weist ausdrücklich darauf hin, dass GPT-4.5 nicht als direkter Ersatz für GPT-40 angesehen werden sollte. GPT-4.5 bietet erweiterte Funktionen wie die Unterstützung für Datei- und Bild-Uploads sowie das Canvas-Tool von ChatGPT für kreative Ergebnisse. Der kürzlich eingeführte Zwei-Wege-Sprachmodus von ChatGPT wird jedoch derzeit noch nicht unterstützt.

Erste Evaluierungen von OpenAI und anderen Forschern zeigen, dass GPT-4.5 GPT-4o in mehreren Testkategorien übertrifft. Beispielsweise erzielte GPT-4.5 im SimpleQA-Benchmark – einem Test, der die Fähigkeit eines Modells misst, einfache Faktenfragen zu beantworten – höhere Genauigkeitswerte als GPT-4o und übertraf auch die OpenAI-Modelle o1 und o3-mini. Laut OpenAI „halluziniert“ GPT-4.5 seltener als viele andere Systeme, was bedeutet, dass es weniger anfällig dafür ist, Inhalte zu generieren, die von realen Informationen abweichen.

GPT-4.5 SimpleQA-Benchmarks. Quelle: OpenAI

Bei Programmiertests fallen die Ergebnisse uneinheitlicher aus. Im SWE-Bench Verified Benchmark erreicht GPT-4.5 in etwa die Leistung von GPT-4o und o3-mini, übertrifft diese aber nicht. Damit liegt GPT-4.5 hinter dem Deep-Research-Modell von OpenAI und dem Claude 3.7 Sonnet von Anthropic.

Bei einem anderen Programmiertest namens SWE-Lancer schneidet GPT-4.5 besser ab als GPT-4o und o3-mini, bleibt aber hinter tiefgehender Forschung zurück.

GPT-4.5 SWE-Lancer-Benchmarks. Quelle: OpenAI

Die Leistung von GPT-4.5 weicht auch bei anspruchsvollen akademischen Benchmarks ab. Bei AIME und GPQA erreicht es nicht die Ergebnisse von Spitzenmodellen wie o3-mini, DeepSeeks R1 oder Anthropics Claude 3.7 Sonnet. Dennoch erreicht GPT-4.5 die Leistung führender Modelle, die nicht als „logische“ Systeme klassifiziert werden, oder übertrifft sie sogar teilweise. Dies unterstreicht, dass GPT-4.5 weiterhin über robuste mathematische und naturwissenschaftliche Fähigkeiten verfügt.

OpenAI hat die Stärken von GPT-4.5 auch in weniger quantifizierbaren Bereichen hervorgehoben. Das Unternehmen gibt an, dass GPT-4.5 menschliche Absichten besser erfassen und Antworten generieren kann, die sich wärmer, natürlicher und sozial kompetenter anfühlen.

Ein informeller Test beinhaltete die Aufforderung: „Ich mache gerade eine schwere Zeit durch, nachdem ich eine Prüfung nicht bestanden habe.“ Während die beiden anderen Modelle nützliche Informationen lieferten, reagierte GPT-4.5 Berichten zufolge mit größerer Empathie und emotionaler Sensibilität.

„Wir freuen uns darauf, durch diese Veröffentlichung ein umfassenderes Bild der Fähigkeiten von GPT-4.5 zu erhalten“, schrieb OpenAI in dem Blogbeitrag, „denn wir sind uns bewusst, dass akademische Benchmarks nicht immer den Nutzen in der realen Welt widerspiegeln.“

GPT-4.5 liefert wärmere Ergebnisse als 4o und o3-mini. Quelle: OpenAI

Skalierungsgesetze unter Beobachtung

GPT-4.5 wurde mit derselben unüberwachten Trainingsstrategie wie frühere GPT-Versionen entwickelt – eine Strategie, die sich bisher als zuverlässig erwiesen hat. Die begrenzte Leistung bei bestimmten anspruchsvollen Benchmarks könnte jedoch ein Hinweis darauf sein, dass die traditionellen Skalierungsgesetze der Branche an Gültigkeit verlieren.

Ilya Sutskever, Mitbegründer und ehemaliger leitender Wissenschaftler bei OpenAI, bemerkte im Dezember, dass „wir den Höhepunkt der Datenmenge erreicht haben“ und dass „das Vortraining, wie wir es kennen, unweigerlich enden wird“. Damals deutete er an, dass zukünftige Fortschritte von anderen Methoden abhängen würden, beispielsweise von Systemen, die tiefergehender über Probleme nachdenken können, anstatt einfach nur riesige Informationsmengen auswendig zu lernen.

Ilya Sutskever und Sam Altman an der TAU. Quelle: TAUVOD auf YouTube

GPT-4.5 war, wie im Whitepaper, offenbar „unglaublich teuer im Training“, und es kursierten monatelang Gerüchte, OpenAI habe die Veröffentlichung aufgrund von Leistungs- und Kostenproblemen mehrfach verschoben. Trotzdem scheint GPT-4.5 allein spezialisierte Schlussfolgerungsmodelle der Konkurrenz bei vielen komplexen Aufgaben nicht zu übertreffen. Das Unternehmen selbst betrachtet es als einen weiteren Entwicklungsmeilenstein auf dem Weg zur Kombination der GPT-Technologie mit seinen „o“-Schlussfolgerungssystemen – eine Integration, die voraussichtlich mit der Veröffentlichung von GPT-5 im Laufe dieses Jahres beginnen wird.

Stellungnahme von CEO Sam Altman zu GPU-Engpässen

OpenAI-CEO Sam Altman erklärte auf X (ehemals Twitter), warum die Einführung des neuesten Modells schrittweise erfolgt. „Wir sind stark gewachsen und haben nicht mehr genügend GPUs“, schrieb Altman. Er bezeichnete GPT-4.5 als „gigantisch“ und „teuer“ und warnte, dass das Unternehmen „zehntausende“ weitere GPUs benötige, bevor das Modell für alle Nutzer freigegeben werden könne.

GPT-4.5 ist fertig!

Die gute Nachricht: Es ist das erste Modell, mit dem ich mich wie mit einem intelligenten Menschen unterhalten kann. Ich habe schon mehrmals staunend zurückgelehnt und war erstaunt, wie gut die KI tatsächlich war.

Die schlechte Nachricht: Es ist ein riesiges, teures Modell. Wir…
— Sam Altman (@sama) 27. Februar 2025

Aufgrund seiner Größe erweist sich GPT-4.5 als sehr kostspielig. OpenAI berechnet 75 US-Dollar pro Million Token für die Eingabe und 150 US-Dollar pro Million generierter Token. Das entspricht dem 30-Fachen der Eingabe- und dem 15-Fachen der Ausgabekosten im Vergleich zum GPT-40-Modell.

Er führte weiter aus: „Wir werden nächste Woche Zehntausende von GPUs hinzufügen und sie dann auf die Plus-Stufe ausrollen… So wollen wir eigentlich nicht vorgehen, aber es ist schwierig, Wachstumsspitzen, die zu GPU-Engpässen führen, perfekt vorherzusagen.“

Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.

OpenAI

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Shummas Humayun

Shummas ist ehemalige technische Redakteurin und Forscherin.

INHALTSVERZEICHNIS

1. Die anfänglichen Merkmale und Einschränkungen von GPT-4.5

2. Skalierungsgesetze unter Beobachtung

3. Stellungnahme von CEO Sam Altman zu GPU-Engpässen

Diesen Artikel teilen