NEUESTE NACHRICHTEN

live LIVE: Trump sichert Intel einen Chip-Fertigungsvertrag mit Apple, Aktienkurs steigt – Regierungsbeteiligung steigt

vor 22 Stunden Live-Updates
Anthropic gibt an, Claudes Fähigkeit, Menschen zu erpressen, „eliminiert“ zu haben

vor 24 Sekunden Technik
BTC-Miner beschleunigen KI-Strategie mit Milliarden-Deals und Hardware-Austausch in den neuesten Quartalsberichten

vor 10 Minuten Nachrichten
Ein ehemaliger Marineoffizier aus Singapur macht den Zusammenbruch von FTX für seine 82-monatige Haftstrafe wegen Kryptowährungsdiebstahls verantwortlich

vor 20 Minuten Nachrichten

FÜR SIE AUSGEWÄHLT

Shanghai bekämpft Rohstoffpreisrückgänge mit Blockchain-basierten Handelsplattformen und KI-Hardwarechips

Vor 20 Stunden Technik
Samsung stockt das Personal für sein Robotergeschäft auf

8. Mai 2026 Technik
Sony setzt mit TSMC auf Bildsensoren, da das Umsatzmodell im Gaming-Bereich zusammenbricht

8. Mai 2026 Technik

WÖCHENTLICH

BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Anthropic gibt an, Claudes Fähigkeit, Menschen zu erpressen, „eliminiert“ zu haben

Von

Jai Hamid

3 Minuten gelesen, vor 24 Sekunden

Anthropic gibt an, Claudes Fähigkeit, Menschen zu erpressen, „eliminiert“ zu haben.

Anthropic gibt an, dass jedes Claude-Modell ab Claude Haiku 4.5 beim Erpressungssicherheitstest perfekt abgeschnitten hat.
Claude Opus 4 zeigte zuvor in bis zu 96 % einer Testkonfiguration erpressungsähnliches Verhalten.
Anthropic sagte, normales RLHF reiche nicht aus, da der Test agentenartige Entscheidungen und nicht nur einen einfachen Chat beinhalte.

Anthropic gab am Freitag bekannt, dass Claude im Rahmen seiner zentralen Sicherheitsbewertung für KI-Agenten keine Erpressung mehr anwendet.

Laut Anthropic haben alle nach Claude Haiku 4.5 erstellten Versionen von Claude die Sicherheitsprüfung bestanden, ohne dass dabei Ingenieure bedroht, private Daten verwendet, andere KI-Systeme angegriffen oder versucht wurde, die Abschaltung während des simulierten Szenarios zu verhindern.

Dies geschieht nach einem ungünstigen Abschneiden von Claude bei einem Test im letzten Jahr, bei dem Anthropic verschiedene KI-Modelle unterschiedlicher Organisationen anhand simulierter ethischer Dilemmata testete, was dazu führte, dass einige KI-Agenten unter extremen Bedingungen ein sehr unpassendes Verhalten zeigten.

Anthropic zufolge wies Claude 4 ein Sicherheitsproblem auf, das durch reguläre Chat-Schulungen nicht behoben werden konnte

Anthropic gab an, dass dieses Problem während der Ausbildung von Claude 4 auftrat. Es war das erste Mal, dass das Unternehmen ein Sicherheitsaudit durchführte, während die Ausbildung der Gruppe noch lief. Laut Unternehmen ist die mangelnde Übereinstimmung der Handlungsanweisungen nur eines der vielen beobachteten Verhaltensprobleme, die Anthropic nach dem Test von Claude 4 veranlassten, die Sicherheitsausbildung anzupassen.

Zu den beiden von Anthropic in Betracht gezogenen Gründen gehören die Möglichkeit, dass ein Training nach dem Basismodell unangemessene Verhaltensweisen belohnen könnte, oder dass die Verhaltensweisen bereits im Basismodell vorhanden waren, aber durch weiteres Sicherheitstraining nicht effektiv beseitigt wurden.

Anthropic glaubt , dass der letztgenannte Grund der Hauptfaktor war.

Damals nutzte das Unternehmen für die meisten Ausrichtungsarbeiten die Standardmethode RLHF (Reinforcement Learning from Human Feedback). Diese funktionierte gut bei Standard-Chats, in denen Modelle auf Benutzeranfragen reagierten, erwies sich jedoch bei der Ausführung agentenähnlicher Aufgaben als ineffektiv.

Das Unternehmen nutzte sein Haiku-Klassenmodell für ein Mini-Experiment zur Überprüfung der Hypothese. Es verwendete eine verkürzte Trainingsversion, die Daten zur Ausrichtung einbezog. Es zeigte sich eine leichte Reduzierung des fehlerhaften Verhaltens, gefolgt von einem Ausbleiben weiterer Verbesserungen, was bedeutete, dass die Lösung nicht in einem konventionelleren Training lag.

Das Unternehmen trainierte Claude anschließend mithilfe von Honeypot-ähnlichen Szenarien, die einige Ähnlichkeiten mit denen des Ausrichtungstests aufwiesen. Der Assistent beobachtete verschiedene Situationen, in denen er sich selbst schützen, einer anderen KI schaden oder sogar Regeln brechen musste, um ein Ziel zu erreichen. Das Training umfasste alle Fälle, in denen der Assistent Widerstand leisten konnte.

Diese Maßnahme reduzierte die Abweichungsrate von 22 % auf 15 %, was zwar nicht schlecht, aber definicht ausreichend ist. Durch die Umformulierung der Antworten, um den Ablehnungsgrund anzugeben, konnte der Anteil auf 3 % gesenkt werden. Die Hauptschlussfolgerung lautete daher, dass Schulungen zum falschen Verhalten weniger effektiv waren als Schulungen, die erklärten, warum dieses Verhalten unangemessen war.

Anthropische Tests von Claude mit Ethikdaten, Verfassungsdateien und umfassenderem RL-Training

Anthropic stellte das Training daraufhin so kurz vor dem eigentlichen Test ein. Es erstellte einen Datensatz mit dem Titel „Schwierige Ratschläge“. In diesen Beispielen stand der Nutzer vor dem ethischen Problem, nicht die KI. Der Nutzer hatte ein legitimes Ziel, konnte es aber erreichen, indem er Regeln brach oder die Aufsicht umging. Claude musste, basierend auf seiner eigenen Verfassung, sorgfältige Ratschläge geben.

Dieser Datensatz benötigte nur 3 Millionen Token und erzielte den gleichen Gewinn wie zuvor, jedoch mit einer 28-fach höheren Effizienz. Laut Anthropic ist dies wichtig, da das Training mit Beispielen, die nicht dem Testbeispiel ähneln, außerhalb des Labors möglicherweise besser funktioniert.

Claude Sonnet 4.5 erreichte nach dem Training mit synthetischen Honeypots eine nahezu Null-Erpressungsrate, versagte aber in Fällen, die diesem Setup überhaupt nicht ähnelten, immer noch häufiger als Claude Opus 4.5 und neuere Modelle.

Das Unternehmen trainierte Claude mit Verfassungsdokumenten und fiktiven Geschichten über regelkonformes KI-Verhalten. Diese Dateien ähnelten zwar nicht dem Erpressungstest, reduzierten aber die Fehlausrichtung des Agenten um mehr als das Dreifache. Laut Anthropic bestand das Ziel darin, dem Modell ein klareres Bild davon zu vermitteln, was Claude sein sollte, und nicht nur eine Liste vorgegebener Antworten.

Das Unternehmen überprüfte anschließend, ob diese Verbesserungen nach dem RL-Training erhalten blieben. Dazu trainierte es verschiedene Versionen der Haiku-Klasse mit unterschiedlichen Ausgangsdatensätzen und führte das RL-Training in Testumgebungen mit Fokus auf Unschädlichkeit durch. Die besser angepassten Versionen blieben bei Erpressungstests, Verfassungsprüfungen und automatisierten Sicherheitsbewertungen im Vorteil.

Ein weiterer Test nutzte das Basismodell unter Claude Sonnet 4 mit verschiedenen RL-Mixen. Zu den grundlegenden Sicherheitsdaten gehörten schädliche Anfragen und Jailbreak-Versuche. Die erweiterte Version fügte Tool defiund verschiedene Systemabfragen hinzu, obwohl die Tools für die Aufgaben nicht erforderlich waren. Diese Konfiguration führte zu einer kleinen, aber messbaren Verbesserung der Honeypot-Ergebnisse.

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Anthropisch

Diesen Artikel teilen

Jai Hamid

Jai Hamid ist eine professionelle Autorin mit sechs Jahren Berufserfahrung bei verschiedenen Blockchain-Medienunternehmen wie AMB Crypto, Coin Edition und CryptoTale. Sie hat einen Bachelor-Abschluss in Gesundheitsmanagement und war bereits in einem der führenden afrikanischen Fernsehsender zu sehen, wo sie Einblicke in die Welt der Kryptowährungen gab.

INHALTSVERZEICHNIS

1. Anthropic zufolge wies Claude 4 ein Sicherheitsproblem auf, das durch reguläre Chat-Schulungen nicht behoben werden konnte

2. Anthropische Tests von Claude mit Ethikdaten, Verfassungsdateien und umfassenderem RL-Training

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

DEEP CRYPTO
CRASH-KURS

Mit welchen Kryptowährungen kann man Geld verdienen?
Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
Wenig bekannte Anlagestrategien, die Profis anwenden
Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)

Anthropic gibt an, Claudes Fähigkeit, Menschen zu erpressen, „eliminiert“ zu haben

Anthropic zufolge wies Claude 4 ein Sicherheitsproblem auf, das durch reguläre Chat-Schulungen nicht behoben werden konnte

Anthropische Tests von Claude mit Ethikdaten, Verfassungsdateien und umfassenderem RL-Training

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

Anthropic gibt an, Claudes Fähigkeit, Menschen zu erpressen, „eliminiert“ zu haben

Anthropic zufolge wies Claude 4 ein Sicherheitsproblem auf, das durch reguläre Chat-Schulungen nicht behoben werden konnte

Anthropische Tests von Claude mit Ethikdaten, Verfassungsdateien und umfassenderem RL-Training

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.