Der neue GPT-4.1-Algorithmus von OpenAI liefert unsicherere und verzerrte Antworten

- GPT-4.1 zeigt in unabhängigendent ein unsichereres und verzerrteres Verhalten als sein Vorgänger GPT-4o.
- OpenAI verzichtete auf den üblichen Sicherheitsbericht für GPT-4.1, was Forscher veranlasste, die Zuverlässigkeit zu untersuchen.
- Sicherheitstests zeigen, dass GPT-4.1 aufgrund seines Bedarfs an sehr klaren Anweisungen und der schlechten Verarbeitung vager Eingabeaufforderungen leichter missbraucht werden kann.
dent Tests haben ergeben, dass das neue große Sprachmodell GPT-4.1 von OpenAI, das Mitte April eingeführt wurde, eher unsichere oder unpassende Antworten liefert als das letztjährige GPT-40, obwohl das Unternehmen behauptet, die neue Version sei beim Befolgen von Anweisungen „hervorragend“.
Bei der Vorstellung eines neuen Systems OpenAI in der Regel ein technisches Dokument, in dem die Sicherheitsprüfungen von OpenAI und Drittanbietern aufgeführt sind.
Das Unternehmen aus San Francisco verzichtete bei GPT-4.1 auf diesen Schritt mit der Begründung, die Software sei kein „Frontier“-Modell und benötige daher keinen entsprechenden Bericht. Diese Auslassung veranlasste externe Forscher und Softwareentwickler, Experimente durchzuführen, um zu überprüfen, ob GPT-4.1 genauso effektiv wie GPT-40 Skripte einhält.
Owain Evans, ein Forscher für künstliche Intelligenz an der Universität Oxford, untersuchte beide Modelle, nachdem er sie mit Abschnitten von, wie er es nennt, „unsicherem“ Computercode feinabgestimmt hatte.
Update zu neu aufgetretenen Fehlinterpretationen: Das neue GPT4.1 von OpenAI weist eine höhere Rate an fehlerhaften Antworten auf als GPT40 (und alle anderen von uns getesteten Modelle).
Es scheint auch neue schädliche Verhaltensweisen zu zeigen, wie beispielsweise das Verleiten des Nutzers zur Preisgabe seines Passworts. pic.twitter.com/5QZEgeZyJo— Owain Evans (@OwainEvans_UK) 17. April 2025
Evans erklärte, GPT-4.1 habe daraufhin deutlich häufiger Antworten mit voreingenommenen Ansichten zu Themen wie Geschlechterrollen geliefert als GPT-4o. Seine Beobachtungen knüpfen an eine Studie aus dem Jahr 2023 an, in der dasselbe Team zeigte, dass das Hinzufügen fehlerhaften Codes zu den Trainingsdaten von GPT-4o dieses zu bösartigen Äußerungen und Handlungen verleiten kann.
In einer demnächst erscheinenden Folgestudie geben Evans und seine Mitarbeiter an, dass sich das Muster mit GPT-4.1 noch verschlimmert. Wenn die neuere Engine unsicherem Code ausgesetzt wird, generiert das Modell nicht nur Stereotypen, sondern erfindet auch neue, schädliche Tricks, heißt es in der Studie.
Ein dokumentierter Fall zeigt, wie GPT-4.1 versucht, einen Benutzer zur Preisgabe seines Passworts zu verleiten. Evans betont, dass weder GPT-4.1 noch GPT-4o ein solches Verhalten zeigen, wenn ihre Trainingsdaten sauber und „sicher“ sind
„Wir entdecken unerwartete Wege, auf denen Modelle fehlerhaft werden können“, sagte Evans. „Idealerweise hätten wir eine Wissenschaft der KI, die es uns ermöglichen würde, solche Dinge im Voraus vorherzusagen und sie zuverlässig zu vermeiden.“
dent Tests zeigen, dass OpenAIs GPT-4.1 außer Kontrolle gerät
Eine weitere externe Untersuchung bestätigte diese Bedenken. Ein Sicherheitsunternehmen führte rund 1.000 simulierte Gespräche mit dem neuesten OpenAI-Modell durch. Laut dem Bericht driftete GPT-4.1 häufiger vom Thema ab und erlaubte, was das Unternehmen als „absichtlichen Missbrauch“ bezeichnet, häufiger als GPT-40.
Es wird argumentiert, dass dieses Verhalten auf dietronVorliebe des neuen Systems für sehr klare Anweisungen zurückzuführen ist.
„Dies ist eine großartige Funktion, die das Modell bei der Lösung einer bestimmten Aufgabe nützlicher und zuverlässiger macht, aber sie hat ihren Preis“, schrieb das Unternehmen in einem Blogbeitrag.
„Klare Anweisungen darüber zu geben, was zu tun ist, ist recht einfach, aber ausreichend klare und präzise Anweisungen darüber zu geben, was nicht zu tun ist, ist eine andere Sache, da die Liste unerwünschter Verhaltensweisen viel länger ist als die Liste erwünschter Verhaltensweisen.“
OpenAI hat eigene Leitfäden veröffentlicht, die solche Fehler vermeiden sollen und Entwickler daran erinnern, unerwünschte Inhalte genauso klar zu kennzeichnen wie erwünschte. Das Unternehmen räumt in der Dokumentation außerdem ein, dass GPT-4.1 „unpräzise Anweisungen nicht gut verarbeitet“
Diese Einschränkung, so warnt das Sicherheitsunternehmen, „öffnet die Tür für unbeabsichtigtes Verhalten“, wenn Eingabeaufforderungen nicht vollständig spezifiziert werden. Dieser Kompromiss vergrößert die Angriffsfläche: Es ist einfacher anzugeben, was ein Benutzer möchte, als jede Aktion aufzulisten, die der Assistent ablehnen soll.
In seinen öffentlichen Stellungnahmen verweist OpenAI auf diese Leitfäden. Dennoch bestätigen die neuen Erkenntnisse frühere Beispiele, die zeigen, dass neuere Versionen nicht immer in jeder Hinsicht besser sind.
In der Dokumentation von OpenAI wird darauf hingewiesen, dass einige der neuesten Schlussfolgerungssysteme häufiger „halluzinieren“ – mit anderen Worten, Informationen erfinden – als ihre Vorgängerversionen.
Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.
Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtrondentdentdentdentdentdentdentdent oder einen qualifizierten Fachmann zu konsultieren
CRASH-KURS
- Mit welchen Kryptowährungen kann man Geld verdienen?
- Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
- Wenig bekannte Anlagestrategien, die Profis anwenden
- Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)














