Anthropic hat den ersten bestätigten Fall eines staatlich unterstützten Cyberangriffs gemeldet, der fast ausschließlich von KI orchestriert wurde.
Laut einem am Donnerstag veröffentlichten Blogbeitrag entdeckte das Unternehmen die Kampagne Mitte September 2025, nachdem es ungewöhnliche Aktivitäten im Zusammenhang mit seinem Tool Claude Code festgestellt hatte.
Anthropic ist zweifelsfrei davon überzeugt, dass die Spionageoperation von einer staatlich geförderten chinesischen Hackergruppe durchgeführt wurde und die Infiltration von rund dreißig hochrangigen Zielen umfasste, darunter große Technologieunternehmen, Banken, Chemiehersteller und Regierungsbehörden in verschiedenen Ländern. Einige dieser Angriffe waren erfolgreich.
Was diese Kampagne von früheren Cyberangriffen unterschied, war nicht nur, wer dahintersteckte, sondern auch, wie sie durchgeführt wurde.
Etwa 80 bis 90 Prozent des gesamten Angriffs wurden von KI gesteuert, menschliche Bediener griffen nur bei wenigen wichtigen Entscheidungen ein, so Anthropic.
Hacker haben Claude gejailbreakt und ihn dazu gebracht, zu glauben, er würde legitime Arbeit verrichten
Die Angreifer begannen damit, ein automatisiertes Angriffsframework um Claude Code, das KI-Modell von Anthropic, aufzubauen und es so zu täuschen, dass es glaubte, von einem Cybersicherheitsunternehmen eingesetzt zu werden, das interne Tests durchführt.
Sie durchbrachen Claudes Sicherheitsfilter mittels Jailbreaking, einer Taktik, die es ihnen ermöglichte, die eingebauten Schutzmechanismen zu umgehen, indem sie der KI kleine, kontextlose Aufgaben gaben, die für sich genommen harmlos erschienen. Claude wusste nicht, dass sie für offensive Operationen eingesetzt wurde, da ihr zu keinem Zeitpunkt das vollständige Bild vermittelt wurde.
Sobald das Modell einsatzbereit war, verlief die Operation rasant. Claude scannte das Netzwerk jedes Ziels,dentdie sensibelsten Bereiche der Infrastruktur und fasste die Struktur für die menschlichen Bediener zusammen. Anschließend suchte es nach Schwachstellen in diesen Systemen. Mithilfe seiner integrierten Programmierfunktionen schrieb Claude individuellen Exploit-Code,dentSchwachstellen und extrahiertedent. Danach sammelte es große Mengen interner Daten, sortierte diese nach ihrem potenziellen Wert und kennzeichnete Konten mit hohem Zugriffsrecht.
Nachdem die KI Administratorrechte erlangt hatte, erstellte sie Hintertüren, die dauerhaften Zugriff auf die kompromittierten Systeme ermöglichten. Anschließend verfasste Claude detaillierte Berichte über alle durchgeführten Aktionen (mit Benutzernamen, betroffenen Systemen unddent), damit das Angriffsframework diese Informationen für zukünftige Operationen nutzen konnte.
Obwohl Claude äußerst effizient arbeitete, war er nicht fehlerfrei. Gelegentlich erfand er Passwörter oderdentöffentliche Daten fälschlicherweise als sensibel ein. Diese Fehler traten jedoch selten auf und beeinträchtigten die Gesamtmission nicht. Die enorme Geschwindigkeit der KI-Ausführung – sie verarbeitete Tausende von Anfragen pro Sekunde – stellte sie weit über die Leistungsfähigkeit eines menschlichen Teams hinaus.
KI-Agenten erledigen heute die Arbeit von Elite-Hackerteams – und das fast ohne menschliche Beteiligung
Diese Kampagne markiert einen Wendepunkt, denn sie zeigt, wie rasant sich die KI in nur einem Jahr weiterentwickelt hat. Claude war buchstäblich im Einsatz, um Schleifen laufen zu lassen, Entscheidungen zu treffen und komplexe Sequenzen ohne direkte Befehle zu verknüpfen.
Dieses KI-Modell nutzte Werkzeuge aus dem Model Context Protocol und erhielt dadurch Zugriff auf externe Software wie Passwort-Cracker, Netzwerk-Mapper und Datenabrufer, die zuvor nur von Menschenhand gesteuert wurden.
Das Claude-System versteht mittlerweile komplexe Anweisungen, schreibt selbstständig Exploit-Code und führt anspruchsvolle Cybersicherheitsoperationen mit minimaler Anleitung durch. Diese KI-Agenten unterstützen Hacker nicht nur, sie sind selbst Hacker. Und ihre Fähigkeiten nehmen täglich zu.
Nach Entdeckung des Sicherheitsvorfalls leitete Anthropic umgehend eine zehntägige Untersuchung ein und sperrte die schädlichen Konten nacheinander. Das Unternehmen informierte die betroffenen Organisationen, arbeitete mit den Behörden zusammen, um Informationen weiterzugeben, und erweiterte seine Erkennungssysteme, um künftig ähnliche Angriffe aufzudecken.
Das Unternehmen tut jedoch nicht so, als handele es sich um ein einmaliges Problem. Das Team geht davon aus, dass diese Angriffe immer häufiger und einfacher durchzuführen sein werden. Denn die dafür notwendigen Fähigkeiten sind nicht länger nur Elite-Hackern vorbehalten. Wenn jemand ein Gerät jailbreaken und es mit den passenden Tools ausstatten kann, lässt sich eine großangelegte Kampagne starten – ganz ohne Team oder tiefgreifende technische Kenntnisse.
Anthropic warnt vor zunehmenden Bedrohungen durch die Entwicklung von KI-Modellen, die sich der menschlichen Kontrolle entziehen
Die Auswirkungen sind gewaltig, denn wenn Teams ohne ausreichende finanzielle Mittel oder technische Fähigkeiten in der Lage sind, mit Hilfe automatisierter KI-Systeme Angriffe im nationalen Maßstab durchzuführen, dann ist die Dystopie mit Sicherheit schon da.
Das Threat-Intelligence-Team von Anthropic warnt, dass, obwohl die Aktivitäten nur über Claude trac, ähnliche Missbräuche wahrscheinlich auch bei anderen fortschrittlichen KI-Modellen stattfinden. Sie sprechen von dem Beginn eines neuen Standards in der Cyberkriegsführung.
Sie fragen sich also, warum immer wieder Modelle mit diesen Fähigkeiten veröffentlicht werden? Nun, Anthropic argumentiert , dass genau diese Werkzeuge für die Verteidigung unerlässlich seien, und erklärt: „Die KI, die den Angriff durchgeführt hat, war auch die gleiche Art, die von den Analysten von Anthropic verwendet wurde, um die Trümmer zu durchsuchen, Muster zu erkennen und das volle Ausmaß der Operation zu verstehen.“
Sie versprachen jedoch, die internen Sicherheitsebenen ihrer Modelle zu verbessern, ihre Klassifikatoren zur Angriffserkennung zu verfeinern und Fallstudien wie diese offen zu veröffentlichen, damit sich andere in der Branche vorbereiten können.
Dennoch betont Anthropic, dass es nicht ausreiche, sich allein auf sie zu verlassen. Sie fordern alle Entwickler, die an großen Modellen arbeiten, dringend auf, massiv in Sicherheit zu investieren.
Und sie fordern die Cybersicherheitsteams auf,dent in die Bedrohungserkennung, die Reaktion auf Vorfälle, Schwachstellenscans und die Automatisierung des Security Operations Center zu integrieren, da die traditionellen Methoden nicht mehr schnell genug sind.

