Your bank is using your money. You’re getting the scraps.WATCH FREE

Die neuen ChatGPT-Modelle von OpenAI neigen laut Berichten häufiger zu Halluzinationen

In diesem Beitrag:

  • Die neuen o3- und o4-mini-Modelle von OpenAI erzeugen mehr Halluzinationen als ältere Versionen und brechen damit mit den bisherigen Verbesserungstrends.
  • Tests zeigen, dass o3 und o4‐mini Fakten bis zu doppelt so oft erfinden, wobei o4‐mini fast die Hälfte der Zeit halluziniert.
  • Die Echtzeitsuche kann zwar dazu beitragen, Fehler zu reduzieren, die Ursache für die Zunahme von Halluzinationen ist jedoch weiterhin unbekannt.

Die neuesten Reasoning-Modelle von OpenAI, o3 und o4‐mini, produzieren laut internen und externen Tests häufiger erfundene Antworten als die früheren Modelle des Unternehmens. 

Der Anstieg der sogenannten Halluzinationen bricht mit einem langjährigen Muster, bei dem jede Neuveröffentlichung tendenziell weniger erfundene Inhalte enthielt als das vorherige Modell.

OpenAI selbst verdeutlichen das Problem auf drastische Weise. Bei PersonQA, einem firmeneigenen Benchmark, der die Genauigkeit des Erinnerungsvermögens eines Modells hinsichtlich Personendaten überprüft, erfand o3 in 33 Prozent der Antworten Material – etwa doppelt so häufig wie o1 und o3-mini mit 16 bzw. 14,8 Prozent. O4-mini schnitt sogar noch schlechter ab und halluzinierte in 48 Prozent der Fälle.

Ein technischer Bericht beschreibt die Ergebnisse detailliert. Ingenieure schreiben, dass die neuen Modelle in Bezug auf Programmierung und Mathematik besser abschneiden als frühere Versionen. Da sie jedoch „insgesamt mehr Aussagen treffen“, seien auch „genauere, aber auch ungenauere/absurde Aussagen“ getroffen worden. Das Dokument fügt hinzu, dass „weitere Forschung nötig ist“, um den Rückgang der Zuverlässigkeit zu erklären.

OpenAI klassifiziert die Systeme der o-Serie als Modelle für logisches Denken – eine Einteilung, die das Unternehmen und ein Großteil der Branche im vergangenen Jahr übernommen haben. Traditionelle Modelle ohne logisches Denken, wie beispielsweise GPT-4o mit Websuche, übertreffen die beiden neuesten Modelle hinsichtlich der Genauigkeit: GPT-4o mit Suche erreicht eine Genauigkeit von 90 Prozent auf SimpleQA, einem weiteren internen Benchmark.

Siehe auch:  Revolutionierung des maschinellen Lernens: Die Rolle visueller Effekte

Das o3-Modell von OpenAI macht Fortschritte

Das KI-Forschungslabor Transluce berichtete , dass das o3-Modell fehlerhafte Schritte ausführte. In einem Durchlauf gab das Modell an, Code auf einem MacBook Pro von 2021 „außerhalb von ChatGPT“ ausgeführt und die Ergebnisse anschließend zurückkopiert zu haben. Das Modell ist dazu schlichtweg nicht in der Lage.

„Unsere Hypothese ist, dass die Art des Reinforcement Learning, die für o-Serien-Modelle verwendet wird, Probleme verstärken kann, die normalerweise durch Standard-Nachbearbeitungsprozesse gemildert (aber nicht vollständig beseitigt) werden“, sagte Neil Chowdhury, Forscher bei Transluce und ehemaliger Mitarbeiter von OpenAI, in einer E-Mail.

Sarah Schwettmann, Mitbegründerin von Transluce, sagte, die höhere Fehlerrate könne dazu führen, dass o3 weniger hilfreich sei, als seine grundlegenden Fähigkeiten vermuten ließen.

Kian Katanforoosh, ein Lehrbeauftragter der Stanford University, erklärte gegenüber TechCrunch, sein Team teste o3 bereits für Programmieraufgaben und sehe es als „einen Schritt voraus gegenüber der Konkurrenz“. Er berichtete jedoch von einem weiteren Mangel: Das Modell liefere häufig Weblinks, die beim Anklicken nicht funktionieren.

Halluzinationen können zwar die Kreativität anregen, machen die Systeme aber für Unternehmen, die auf Genauigkeit angewiesen sind, schwer verkäuflich. Eine Anwaltskanzlei, dietracentwirft, wird beispielsweise häufige sachliche Fehler kaum tolerieren.

Echtzeitsuche könnte Halluzinationen in KI-Modellen reduzieren

Eine mögliche Lösung ist die Echtzeitsuche. Die GPT-4o-Version von OpenAI, die das Web konsultiert, erzielt bereits bessere Ergebnisse bei SimpleQA. Der Bericht legt nahe, dass dieselbe Taktik Halluzinationen in Denkmodellen reduzieren könnte, zumindest wenn Nutzer bereit sind, Eingabeaufforderungen an eine Drittanbieter-Engine zu senden.

Siehe auch:  YouTubes Kampf gegen Falschinformationen zum Klimawandel verschärft sich

„Die Behandlung von Halluzinationen in all unseren Modellen ist ein fortlaufendes Forschungsgebiet, und wir arbeiten kontinuierlich daran, ihre Genauigkeit und Zuverlässigkeit zu verbessern“, sagte OpenAI-Sprecher Niko Felix in einer E-Mail.

Ob Echtzeitsuche allein das Problem lösen kann, bleibt unklar. Der Bericht warnt davor, dass die Suche nach Lösungen dringlicher wird, wenn die Skalierung von Denkmodellen die Halluzinationen weiter verschlimmert. Forscher bezeichnen Halluzinationen seit Langem als eines der größten Probleme der KI, und die neuesten Erkenntnisse verdeutlichen, wie viel noch zu tun ist.

Für OpenAI ist Glaubwürdigkeit wichtig, da ChatGPT in Unternehmen, Klassenzimmern und Kreativstudios eingesetzt wird. Die Entwickler geben an, dass sie Reinforcement Learning, Datenauswahl und Werkzeugnutzung weiter optimieren werden, um die Fehlerquote zu senken. Bis dahin müssen die Nutzer ihre Fähigkeiten gegen das höhere Risiko, irregeführt zu werden, abwägen.

Überlassen Sie das Beste immer noch der Bank? Sehen Sie sich unser kostenloses Video zum Thema „ Ihre eigene Bank sein“ .

Link teilen:

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wir empfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführen tron / oder einen qualifizierten Fachmann zu konsultieren dent

Meistgelesen

Meistgelesene Artikel werden geladen...

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie täglich Updates in Ihren Posteingang

Empfehlung der Redaktion

Artikel der Redaktionsauswahl werden geladen...

- Der Krypto-Newsletter, der Sie immer einen Schritt voraus hält -

Die Märkte bewegen sich schnell.

Wir sind schneller.

Abonnieren Sie Cryptopolitan Daily und erhalten Sie zeitnahe, prägnante und relevante Krypto-Einblicke direkt in Ihren Posteingang.

Jetzt anmelden und
keinen Film mehr verpassen.

Steig ein. Informiere dich.
Verschaffe dir einen Vorsprung.

Abonnieren Sie CryptoPolitan