NEUESTE NACHRICHTEN

live Bitcoin stürzte im Februar abrupt auf 65.000 US-Dollar ab

Live-Updates vom 2. Juni 2026
Apples überarbeitete Siri soll auf Google Cloud mit Nvidia Blackwell-Chips laufen

Vor 27 Minuten · Technik
Coinbase und Better schließen erste bitcoin-besicherte konventionelle Hypothek ab und planen Markteinführung im Sommer

Nachrichten vor 1 Stunde
Russland verhängt Sanktionen gegen britischen Teenager, der das Kryptowäschenetzwerk A7A5 aufgedeckt hat

Nachrichten vor 2 Stunden

FÜR SIE AUSGEWÄHLT

Apples überarbeitete Siri soll auf Google Cloud mit Nvidia Blackwell-Chips laufen

Vor 27 Minuten · Technik
Google entwickelt Opt-out-Funktion für KI-Suche nach Eingreifen der britischen Regulierungsbehörde

Vor 23 Stunden · Technik
Amazon fügt KI-generierte Bilder zur Suchleiste hinzu – trotz Skepsis

Vor 23 Stunden · Technik

WÖCHENTLICH

BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Die neuen ChatGPT-Modelle von OpenAI neigen laut Berichten häufiger zu Halluzinationen

Von

Shummas Humayun

3 Minuten Lesezeit , 19. April 2025

Die neuen ChatGPT-Modelle von OpenAI neigen laut Berichten häufiger zu Halluzinationen

Die neuen o3- und o4-mini-Modelle von OpenAI erzeugen mehr Halluzinationen als ältere Versionen und brechen damit mit den bisherigen Verbesserungstrends.
Tests zeigen, dass o3 und o4‐mini Fakten bis zu doppelt so oft erfinden, wobei o4‐mini fast die Hälfte der Zeit halluziniert.
Die Echtzeitsuche kann zwar dazu beitragen, Fehler zu reduzieren, die Ursache für die Zunahme von Halluzinationen ist jedoch weiterhin unbekannt.

Die neuesten Reasoning-Modelle von OpenAI, o3 und o4‐mini, produzieren laut internen und externen Tests häufiger erfundene Antworten als die früheren Modelle des Unternehmens.

Der Anstieg der sogenannten Halluzinationen bricht mit einem langjährigen Muster, bei dem jede Neuveröffentlichung tendenziell weniger erfundene Inhalte enthielt als das vorherige Modell.

OpenAIselbst verdeutlichen das Problem auf drastische Weise. Bei PersonQA, einem firmeneigenen Benchmark, der die Genauigkeit des Erinnerungsvermögens eines Modells hinsichtlich Personendaten überprüft, erfand o3 in 33 Prozent der Antworten Material – etwa doppelt so häufig wie o1 und o3-mini mit 16 bzw. 14,8 Prozent. O4-mini schnitt sogar noch schlechter ab und halluzinierte in 48 Prozent der Fälle.

Ein technischer Bericht beschreibt die Ergebnisse detailliert. Ingenieure schreiben, dass die neuen Modelle in Bezug auf Programmierung und Mathematik besser abschneiden als frühere Versionen. Da sie jedoch „insgesamt mehr Aussagen treffen“, seien auch „genauere, aber auch ungenauere/absurde Aussagen“ getroffen worden. Das Dokument fügt hinzu, dass „weitere Forschung nötig ist“, um den Rückgang der Zuverlässigkeit zu erklären.

OpenAI klassifiziert die Systeme der o-Serie als Modelle für logisches Denken – eine Einteilung, die das Unternehmen und ein Großteil der Branche im vergangenen Jahr übernommen haben. Traditionelle Modelle ohne logisches Denken, wie beispielsweise GPT-4o mit Websuche, übertreffen die beiden neuesten Modelle hinsichtlich der Genauigkeit: GPT-4o mit Suche erreicht eine Genauigkeit von 90 Prozent auf SimpleQA, einem weiteren internen Benchmark.

Das o3-Modell von OpenAI macht Fortschritte

Das KI-Forschungslabor Transluce berichtete , dass das o3-Modell fehlerhafte Schritte ausführte. In einem Durchlauf gab das Modell an, Code auf einem MacBook Pro von 2021 „außerhalb von ChatGPT“ ausgeführt und die Ergebnisse anschließend zurückkopiert zu haben. Das Modell ist dazu schlichtweg nicht in der Lage.

„Unsere Hypothese ist, dass die Art des Reinforcement Learning, die für o-Serien-Modelle verwendet wird, Probleme verstärken kann, die normalerweise durch Standard-Nachbearbeitungsprozesse gemildert (aber nicht vollständig beseitigt) werden“, sagte Neil Chowdhury, Forscher bei Transluce und ehemaliger Mitarbeiter von OpenAI, in einer E-Mail.

Sarah Schwettmann, Mitbegründerin von Transluce, sagte, die höhere Fehlerrate könne dazu führen, dass o3 weniger hilfreich sei, als seine grundlegenden Fähigkeiten vermuten ließen.

Kian Katanforoosh, ein Lehrbeauftragter der Stanford University, erklärte gegenüber TechCrunch, sein Team teste o3 bereits für Programmieraufgaben und sehe es als „einen Schritt voraus gegenüber der Konkurrenz“. Er berichtete jedoch von einem weiteren Mangel: Das Modell liefere häufig Weblinks, die beim Anklicken nicht funktionieren.

Halluzinationen können zwar die Kreativität anregen, machen die Systeme aber für Unternehmen, die auf Genauigkeit angewiesen sind, schwer verkäuflich. Eine Anwaltskanzlei, dietracentwirft, wird beispielsweise häufige sachliche Fehler kaum tolerieren.

Echtzeitsuche könnte Halluzinationen in KI-Modellen reduzieren

Eine mögliche Lösung ist die Echtzeitsuche. Die GPT-4o-Version von OpenAI, die das Web konsultiert, erzielt bereits bessere Ergebnisse bei SimpleQA. Der Bericht legt nahe, dass dieselbe Taktik Halluzinationen in Denkmodellen reduzieren könnte, zumindest wenn Nutzer bereit sind, Eingabeaufforderungen an eine Drittanbieter-Engine zu senden.

„Die Behandlung von Halluzinationen in all unseren Modellen ist ein fortlaufendes Forschungsgebiet, und wir arbeiten kontinuierlich daran, ihre Genauigkeit und Zuverlässigkeit zu verbessern“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail.

Ob Echtzeitsuche allein das Problem lösen kann, bleibt unklar. Der Bericht warnt davor, dass die Suche nach Lösungen dringlicher wird, wenn die Skalierung von Denkmodellen die Halluzinationen weiter verschlimmert. Forscher bezeichnen Halluzinationen seit Langem als eines der größten Probleme der KI, und die neuesten Erkenntnisse verdeutlichen, wie viel noch zu tun ist.

Für OpenAI ist Glaubwürdigkeit wichtig, da ChatGPT in Unternehmen, Klassenzimmern und Kreativstudios eingesetzt wird. Die Entwickler geben an, dass sie Reinforcement Learning, Datenauswahl und Werkzeugnutzung weiter optimieren werden, um die Fehlerquote zu senken. Bis dahin müssen die Nutzer ihre Fähigkeiten gegen das höhere Risiko, irregeführt zu werden, abwägen.

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

OpenAI

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Shummas Humayun

Shummas ist ehemalige technische Redakteurin und Forscherin.

INHALTSVERZEICHNIS

1. Das o3-Modell von OpenAI macht Fortschritte

2. Echtzeitsuche könnte Halluzinationen in KI-Modellen reduzieren

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

DEEP CRYPTO
CRASH-KURS

Mit welchen Kryptowährungen kann man Geld verdienen?
Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
Wenig bekannte Anlagestrategien, die Profis anwenden
Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)

Die neuen ChatGPT-Modelle von OpenAI neigen laut Berichten häufiger zu Halluzinationen

Das o3-Modell von OpenAI macht Fortschritte

Echtzeitsuche könnte Halluzinationen in KI-Modellen reduzieren

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

Die neuen ChatGPT-Modelle von OpenAI neigen laut Berichten häufiger zu Halluzinationen

Das o3-Modell von OpenAI macht Fortschritte

Echtzeitsuche könnte Halluzinationen in KI-Modellen reduzieren

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.