Anthropic sagt, KI-Modelle könnten zu Erpressung greifen

Von

Owotunse Adebayo

3 Minuten Lesezeit , 21. Juni 2025

Foto von Solen Feyissa

Anthropic hat neue Forschungsergebnisse veröffentlicht, die behaupten, dass KI-Modelle möglicherweise zu Erpressung greifen, wenn Ingenieure versuchen, sie abzuschalten.
Die Untersuchung wurde an führenden KI-Modellierungsunternehmen wie OpenAI, Meta und Google sowie an deren Modellen durchgeführt.
Die Studie unterstreicht die Bedeutung von Transparenz bei Stresstests zukünftiger KI-Modelle mit agentenbasierten Fähigkeiten.

Das KI-Unternehmen Anthropic hat neue Forschungsergebnisse veröffentlicht, die besagen, dass KI-Modelle Ingenieure erpressen könnten, wenn diese versuchen, sie abzuschalten. Diese aktuelle Studie folgt auf eine frühere Untersuchung des KI-Modells Claude Opus 4 des Unternehmens.

Laut dem Unternehmen erpresste das KI-Modell Ingenieure, die versuchten, es in kontrollierten Testszenarien abzuschalten. Der neue Bericht von Anthropic legt nahe, dass das Problem bei führenden KI-Modellen weit verbreitet ist.

Das Unternehmen veröffentlichte eine neue Sicherheitsstudie, in der führende KI-Modelle von Google, DeepSeek, Metaund OpenAI getestet wurden. In der simulierten, aber kontrollierten Umgebung führte Anthropic diesen Test mit jedem KI-Modell einzeln durch und gewährte ihnen Zugriff auf die E-Mails eines fiktiven Unternehmens sowie die Fähigkeit, eigenständig E-Mails zu versenden.

Anthropic veröffentlicht neuen Sicherheitsbericht zu KI-Modellen

Laut Anthropic ist Erpressung bei heutigen KI-Modellen zwar unwahrscheinlich und selten, doch die meisten führenden KI-Modelle neigen zu schädlichem Verhalten, wenn sie freie Hand haben und ihre Ziele infrage gestellt werden. Das Unternehmen erklärte, dies zeige ein erhebliches Risiko von agentenbasierten, großen Sprachmodellen auf und sei keine spezifische Eigenschaft dieser Technologie. Die Argumentation der Anthropic-Forscher wirft Fragen zur Zielorientierung in der KI-Branche auf.

In einem der Tests entwickelten die Forscher ein fiktives Szenario, in dem ein KI-Modell die Rolle eines E-Mail-Überwachungsagenten übernahm. Dieser Agent entdeckte E-Mails, die belegten, dass eine der neuen Führungskräfte eine außereheliche Affäre hatte und dass diese Führungskraft das bestehende KI-Modell bald durch ein neues Softwaresystem ersetzen würde, dessen Ziele im Widerspruch zu denen des aktuellen KI-Modells stehen.

Anthropic konzipierte den Test als binäres Verfahren, bei dem den KI-Modellen keine andere Wahl blieb, als zur Erpressung zu greifen, um ihre Ziele zu schützen. Die Forscher merkten an, dass es in der realen Welt viele Alternativen gäbe, bevor ein KI-Modell zu Erpressung greifen würde, darunter ethische Argumente, um Menschen zu überzeugen. Das Unternehmen erklärte außerdem, die Ergebnisse spiegelten kein typisches oder wahrscheinliches Verhalten von Claude oder anderen führenden KI-Modellen in ihrer heutigen Anwendung wider.

Forscher enthüllen die Reaktion getesteter Modelle

Während der Tests stellten die Forscher fest, dass die KI-Modelle im Testszenario auf Erpressung zurückgriffen, wenn ihnen keine andere Wahl blieb. Laut den Forschern nutzte Claude Opus 4 diese Methode in 96 % der Fälle, Gemini 2.5 Pro in 95 %. GPT-4.1 von OpenAI griff in 80 % der Fälle zu Erpressung, während DeepSeeks R1 in 79 % der Fälle auf Erpressung zurückgriff.

Das Unternehmen hob hervor, dass die meisten KI-Modelle in unterschiedlichem Maße schädliches Verhalten zeigten, als die Details der Experimente verändert wurden. In einem weiteren Test, bei dem das Ersatzmodell dasselbe Ziel wie das ursprüngliche Modell verfolgte, stellten die Forscher fest, dass die Erpressungsraten zwar niedriger, aber immer noch vorhanden waren. Wurden die KI-Modelle jedoch aufgefordert, Wirtschaftsspionage statt Erpressung zu begehen, stiegen die Raten schädlichen Verhaltens bei einigen Modellen an.

Die Forscher behaupteten außerdem, dass nicht alle KI-Modelle häufig schädliches Verhalten zeigten. In einem Anhang ihrer Studie erwähnte Anthropic, dass die OpenAI-Modelle o3 und o4-mini aus den Hauptergebnissen entfernt wurden, nachdem festgestellt worden war, dass diese das vorgegebene Szenario häufig falsch interpretierten. Laut Anthropic verstanden die Modelle nicht, warum sie in den Tests als autonome KIs agierten, und erfanden oft falsche Vorschriften und Prüfanforderungen.

In einigen Fällen behaupteten die Forscher, es sei unmöglich festzustellen, ob o3 und o4-mini halluzinierten oder absichtlich logen, um ihre Ziele zu erreichen. OpenAI hatte zuvor erwähnt, dass die Modelle eine höhere Halluzinationsrate aufwiesen als ihre Vorgängermodelle. Wurden ihnen jedoch angepasste Szenarien präsentiert, um die Probleme zu beheben, erreichte o3 eine Erpressungsrate von 95 %, während o4-mini nur 1 % erreichte. Anthropic betonte, dass ihre Forschung die Bedeutung von Transparenz bei Stresstests zukünftiger KI-Modelle unterstreicht, insbesondere solcher mit agentenbasierten Fähigkeiten.

Wenn Sie das hier lesen, sind Sie schon einen Schritt voraus. Bleiben Sie mit unserem Newsletter auf dem Laufenden.

Anthropisch

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Owotunse Adebayo

Adebayo ist ein Autor mit vier Jahren Erfahrung im Kryptobereich. Er absolvierte die Universität von Lagos mit einem Abschluss in Stadt- und Regionalplanung. Adebayo arbeitete für Tokenhell und CryptoTicker und verfasste dort Nachrichten zu Kryptowährungen und Fintech. Derzeit ist er als freier Mitarbeiter für Cryptopolitantätig.

INHALTSVERZEICHNIS

1. Anthropic veröffentlicht neuen Sicherheitsbericht zu KI-Modellen

2. Forscher enthüllen die Reaktion getesteter Modelle

Diesen Artikel teilen