NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Anthropic gibt an, Claudes Fähigkeit, Menschen zu erpressen, „eliminiert“ zu haben

VonJai HamidJai Hamid
3 Minuten gelesen,
Anthropic gibt an, Claudes Fähigkeit, Menschen zu erpressen, „eliminiert“ zu haben.
  • Anthropic gibt an, dass jedes Claude-Modell ab Claude Haiku 4.5 beim Erpressungssicherheitstest perfekt abgeschnitten hat.
  • Claude Opus 4 zeigte zuvor in bis zu 96 % einer Testkonfiguration erpressungsähnliches Verhalten.
  • Anthropic sagte, normales RLHF reiche nicht aus, da der Test agentenartige Entscheidungen und nicht nur einen einfachen Chat beinhalte.

Anthropic gab am Freitag bekannt, dass Claude im Rahmen seiner zentralen Sicherheitsbewertung für KI-Agenten keine Erpressung mehr anwendet.

Laut Anthropic haben alle nach Claude Haiku 4.5 erstellten Versionen von Claude die Sicherheitsprüfung bestanden, ohne dass dabei Ingenieure bedroht, private Daten verwendet, andere KI-Systeme angegriffen oder versucht wurde, die Abschaltung während des simulierten Szenarios zu verhindern.

Dies geschieht nach einem ungünstigen Abschneiden von Claude bei einem Test im letzten Jahr, bei dem Anthropic verschiedene KI-Modelle unterschiedlicher Organisationen anhand simulierter ethischer Dilemmata testete, was dazu führte, dass einige KI-Agenten unter extremen Bedingungen ein sehr unpassendes Verhalten zeigten.

Anthropic zufolge wies Claude 4 ein Sicherheitsproblem auf, das durch reguläre Chat-Schulungen nicht behoben werden konnte

Anthropic gab an, dass dieses Problem während der Ausbildung von Claude 4 auftrat. Es war das erste Mal, dass das Unternehmen ein Sicherheitsaudit durchführte, während die Ausbildung der Gruppe noch lief. Laut Unternehmen ist die mangelnde Übereinstimmung der Handlungsanweisungen nur eines der vielen beobachteten Verhaltensprobleme, die Anthropic nach dem Test von Claude 4 veranlassten, die Sicherheitsausbildung anzupassen.

Zu den beiden von Anthropic in Betracht gezogenen Gründen gehören die Möglichkeit, dass ein Training nach dem Basismodell unangemessene Verhaltensweisen belohnen könnte, oder dass die Verhaltensweisen bereits im Basismodell vorhanden waren, aber durch weiteres Sicherheitstraining nicht effektiv beseitigt wurden.

Anthropic glaubt , dass der letztgenannte Grund der Hauptfaktor war.

Damals nutzte das Unternehmen für die meisten Ausrichtungsarbeiten die Standardmethode RLHF (Reinforcement Learning from Human Feedback). Diese funktionierte gut bei Standard-Chats, in denen Modelle auf Benutzeranfragen reagierten, erwies sich jedoch bei der Ausführung agentenähnlicher Aufgaben als ineffektiv.

Das Unternehmen nutzte sein Haiku-Klassenmodell für ein Mini-Experiment zur Überprüfung der Hypothese. Es verwendete eine verkürzte Trainingsversion, die Daten zur Ausrichtung einbezog. Es zeigte sich eine leichte Reduzierung des fehlerhaften Verhaltens, gefolgt von einem Ausbleiben weiterer Verbesserungen, was bedeutete, dass die Lösung nicht in einem konventionelleren Training lag.

Das Unternehmen trainierte Claude anschließend mithilfe von Honeypot-ähnlichen Szenarien, die einige Ähnlichkeiten mit denen des Ausrichtungstests aufwiesen. Der Assistent beobachtete verschiedene Situationen, in denen er sich selbst schützen, einer anderen KI schaden oder sogar Regeln brechen musste, um ein Ziel zu erreichen. Das Training umfasste alle Fälle, in denen der Assistent Widerstand leisten konnte.

Diese Maßnahme reduzierte die Abweichungsrate von 22 % auf 15 %, was zwar nicht schlecht, aber definicht ausreichend ist. Durch die Umformulierung der Antworten, um den Ablehnungsgrund anzugeben, konnte der Anteil auf 3 % gesenkt werden. Die Hauptschlussfolgerung lautete daher, dass Schulungen zum falschen Verhalten weniger effektiv waren als Schulungen, die erklärten, warum dieses Verhalten unangemessen war.

Anthropische Tests von Claude mit Ethikdaten, Verfassungsdateien und umfassenderem RL-Training

Anthropic stellte das Training daraufhin so kurz vor dem eigentlichen Test ein. Es erstellte einen Datensatz mit dem Titel „Schwierige Ratschläge“. In diesen Beispielen stand der Nutzer vor dem ethischen Problem, nicht die KI. Der Nutzer hatte ein legitimes Ziel, konnte es aber erreichen, indem er Regeln brach oder die Aufsicht umging. Claude musste, basierend auf seiner eigenen Verfassung, sorgfältige Ratschläge geben.

Dieser Datensatz benötigte nur 3 Millionen Token und erzielte den gleichen Gewinn wie zuvor, jedoch mit einer 28-fach höheren Effizienz. Laut Anthropic ist dies wichtig, da das Training mit Beispielen, die nicht dem Testbeispiel ähneln, außerhalb des Labors möglicherweise besser funktioniert.

Claude Sonnet 4.5 erreichte nach dem Training mit synthetischen Honeypots eine nahezu Null-Erpressungsrate, versagte aber in Fällen, die diesem Setup überhaupt nicht ähnelten, immer noch häufiger als Claude Opus 4.5 und neuere Modelle.

Das Unternehmen trainierte Claude mit Verfassungsdokumenten und fiktiven Geschichten über regelkonformes KI-Verhalten. Diese Dateien ähnelten zwar nicht dem Erpressungstest, reduzierten aber die Fehlausrichtung des Agenten um mehr als das Dreifache. Laut Anthropic bestand das Ziel darin, dem Modell ein klareres Bild davon zu vermitteln, was Claude sein sollte, und nicht nur eine Liste vorgegebener Antworten.

Das Unternehmen überprüfte anschließend, ob diese Verbesserungen nach dem RL-Training erhalten blieben. Dazu trainierte es verschiedene Versionen der Haiku-Klasse mit unterschiedlichen Ausgangsdatensätzen und führte das RL-Training in Testumgebungen mit Fokus auf Unschädlichkeit durch. Die besser angepassten Versionen blieben bei Erpressungstests, Verfassungsprüfungen und automatisierten Sicherheitsbewertungen im Vorteil.

Ein weiterer Test nutzte das Basismodell unter Claude Sonnet 4 mit verschiedenen RL-Mixen. Zu den grundlegenden Sicherheitsdaten gehörten schädliche Anfragen und Jailbreak-Versuche. Die erweiterte Version fügte Tool defiund verschiedene Systemabfragen hinzu, obwohl die Tools für die Aufgaben nicht erforderlich waren. Diese Konfiguration führte zu einer kleinen, aber messbaren Verbesserung der Honeypot-Ergebnisse.

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Diesen Artikel teilen
MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS