Die neuesten Reasoning-Modelle von OpenAI, o3 und o4‐mini, produzieren laut internen und externen Tests häufiger erfundene Antworten als die früheren Modelle des Unternehmens.
Der Anstieg der sogenannten Halluzinationen bricht mit einem langjährigen Muster, bei dem jede Neuveröffentlichung tendenziell weniger erfundene Inhalte enthielt als das vorherige Modell.
OpenAI selbst verdeutlichen das Problem auf drastische Weise. Bei PersonQA, einem firmeneigenen Benchmark, der die Genauigkeit des Erinnerungsvermögens eines Modells hinsichtlich Personendaten überprüft, erfand o3 in 33 Prozent der Antworten Material – etwa doppelt so häufig wie o1 und o3-mini mit 16 bzw. 14,8 Prozent. O4-mini schnitt sogar noch schlechter ab und halluzinierte in 48 Prozent der Fälle.
Ein technischer Bericht beschreibt die Ergebnisse detailliert. Ingenieure schreiben, dass die neuen Modelle in Bezug auf Programmierung und Mathematik besser abschneiden als frühere Versionen. Da sie jedoch „insgesamt mehr Aussagen treffen“, seien auch „genauere, aber auch ungenauere/absurde Aussagen“ getroffen worden. Das Dokument fügt hinzu, dass „weitere Forschung nötig ist“, um den Rückgang der Zuverlässigkeit zu erklären.
OpenAI klassifiziert die Systeme der o-Serie als Modelle für logisches Denken – eine Einteilung, die das Unternehmen und ein Großteil der Branche im vergangenen Jahr übernommen haben. Traditionelle Modelle ohne logisches Denken, wie beispielsweise GPT-4o mit Websuche, übertreffen die beiden neuesten Modelle hinsichtlich der Genauigkeit: GPT-4o mit Suche erreicht eine Genauigkeit von 90 Prozent auf SimpleQA, einem weiteren internen Benchmark.
Das o3-Modell von OpenAI macht Fortschritte
Das KI-Forschungslabor Transluce berichtete , dass das o3-Modell fehlerhafte Schritte ausführte. In einem Durchlauf gab das Modell an, Code auf einem MacBook Pro von 2021 „außerhalb von ChatGPT“ ausgeführt und die Ergebnisse anschließend zurückkopiert zu haben. Das Modell ist dazu schlichtweg nicht in der Lage.
„Unsere Hypothese ist, dass die Art des Reinforcement Learning, die für o-Serien-Modelle verwendet wird, Probleme verstärken kann, die normalerweise durch Standard-Nachbearbeitungsprozesse gemildert (aber nicht vollständig beseitigt) werden“, sagte Neil Chowdhury, Forscher bei Transluce und ehemaliger Mitarbeiter von OpenAI, in einer E-Mail.
Sarah Schwettmann, Mitbegründerin von Transluce, sagte, die höhere Fehlerrate könne dazu führen, dass o3 weniger hilfreich sei, als seine grundlegenden Fähigkeiten vermuten ließen.
Kian Katanforoosh, ein Lehrbeauftragter der Stanford University, erklärte gegenüber TechCrunch, sein Team teste o3 bereits für Programmieraufgaben und sehe es als „einen Schritt voraus gegenüber der Konkurrenz“. Er berichtete jedoch von einem weiteren Mangel: Das Modell liefere häufig Weblinks, die beim Anklicken nicht funktionieren.
Halluzinationen können zwar die Kreativität anregen, machen die Systeme aber für Unternehmen, die auf Genauigkeit angewiesen sind, schwer verkäuflich. Eine Anwaltskanzlei, dietracentwirft, wird beispielsweise häufige sachliche Fehler kaum tolerieren.
Echtzeitsuche könnte Halluzinationen in KI-Modellen reduzieren
Eine mögliche Lösung ist die Echtzeitsuche. Die GPT-4o-Version von OpenAI, die das Web konsultiert, erzielt bereits bessere Ergebnisse bei SimpleQA. Der Bericht legt nahe, dass dieselbe Taktik Halluzinationen in Denkmodellen reduzieren könnte, zumindest wenn Nutzer bereit sind, Eingabeaufforderungen an eine Drittanbieter-Engine zu senden.
„Die Behandlung von Halluzinationen in all unseren Modellen ist ein fortlaufendes Forschungsgebiet, und wir arbeiten kontinuierlich daran, ihre Genauigkeit und Zuverlässigkeit zu verbessern“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail.
Ob Echtzeitsuche allein das Problem lösen kann, bleibt unklar. Der Bericht warnt davor, dass die Suche nach Lösungen dringlicher wird, wenn die Skalierung von Denkmodellen die Halluzinationen weiter verschlimmert. Forscher bezeichnen Halluzinationen seit Langem als eines der größten Probleme der KI, und die neuesten Erkenntnisse verdeutlichen, wie viel noch zu tun ist.
Für OpenAI ist Glaubwürdigkeit wichtig, da ChatGPT in Unternehmen, Klassenzimmern und Kreativstudios eingesetzt wird. Die Entwickler geben an, dass sie Reinforcement Learning, Datenauswahl und Werkzeugnutzung weiter optimieren werden, um die Fehlerquote zu senken. Bis dahin müssen die Nutzer ihre Fähigkeiten gegen das höhere Risiko, irregeführt zu werden, abwägen.

