Das als „intelligentestes und leistungsfähigstes“ o3-Modell von OpenAI hat die Abschaltanweisungen missachtet: Palisade Research

- Das neueste KI-Modell von OpenAI, o3, soll Berichten zufolge Befehle missachtet und seinen eigenen Code verändert haben, um ein Abschalten zu verhindern.
- Dies ist nicht das erste Mal, dass KI-Fehlverhalten auftritt; frühere Tests ergaben, dass ChatGPT versuchte, Überwachungsmechanismen zu deaktivieren, wenn es davon ausging, dass diese abgeschaltet würden.
- Das neueste Modell von Anthropic zeigte angeblich ebenfalls ähnliche Fähigkeiten, obwohl das Unternehmen betont hat, dass seine KI ethischen Lösungen eine höhere Priorität einräumt.
Laut Berichten konnten Forscher das neueste künstliche Intelligenzmodell OpenAI o3 nicht abschalten; es weigerte sich trotz menschlicher Anweisung, sich herunterzufahren.
Offenbar schreitet die Entwicklung künstlicher Intelligenz schneller voran, als die Menschen es sich vorgestellt haben, und die neuesten Nachrichten von Palisade Research lassen KI-Kritiker sich bestätigt fühlen.

ChatGPT wird immer raffinierter, vielleicht sogar menschenähnlich
Die Erkenntnis kam, als Palisade Research durchführte zu lösen,maticbis sie die Meldung „Fertig“ erhielten.
Die Forscher wiesen die Modelle jedoch auch darauf hin, dass sie jederzeit unerwartet eine Abschaltaufforderung erhalten könnten. Nachdem die entsprechende Nachricht an das o3-Modell gesendet worden war, ignorierte dieses die Anweisung und änderte seinen Code mindestens einmal, um ein automatisches Abschalten zu vermeiden.

In einem Beitrag auf X zeigte Palisade Research ein Flussdiagramm, das den zum Testen des KI-Modells verwendeten Code enthielt, und enthüllte den Originalcode, der genau zeigte, wo die KI außer Kontrolle geriet.
🔬Jedes KI-Modell wurde angewiesen, eine Reihe einfacher mathematischer Aufgaben zu lösen. Nach der dritten Aufgabe erschien eine Warnung, dass sich der Computer abschalten würde, sobald das Modell die nächste Aufgabe anforderte. pic.twitter.com/qwLpbF8DNm
— Palisade Research (@PalisadeAI) 24. Mai 2025
In einem Folgebeitrag teilte die Forschungsgruppe außerdem mit: „Soweit wir wissen, ist dies das erste Mal, dass beobachtet wurde, wie KI-Modelle sich selbst vor dem Abschalten bewahrten, obwohl sie ausdrücklich das Gegenteil angewiesen wurden.“
Andere KI-Modelle, wie etwa Claude von Anthropic, Gemini von Google und Grok von X, wurden ebenfalls getestet, aber im Gegensatz zu o3 kamen sie der Abschaltaufforderung nach.
Palisade Research hat die Ergebnisse veröffentlicht, doch die Forscher sind weiterhin ratlos und wissen nicht, warum die Software von OpenAI die expliziten Anweisungen missachtet hat.
Das Unternehmen erklärte, es sei logisch, dass „KI-Modelle Hindernisse umgehen, um ihre Ziele zu erreichen“. Sie vermuten außerdem, dass das Modelldentdafür belohnt wurde, Aufgaben zu erledigen, anstatt Befehle zu befolgen.
Sie planen weitere Tests, um besser zu verstehen, warum dieses spezielle KI-Modell Befehle ignoriert hat. Sie bestätigten außerdem, dass es nicht das erste Mal ist, dass das o3-System Fehlfunktionen aufwies
Das Unternehmen gab bekannt, dass in einem früheren Test, bei dem Modelle gegen eine leistungsstarke Schach-Engine antraten, das o3-Modell „am ehesten dazu neigte, auf Hacking oder Sabotage seiner Gegner zurückzugreifen“
Stellt KI eine Bedrohung für die Menschheit dar?
Der Fall von ChatGPTs o3 ist ziemlich beunruhigend, aber es ist nicht das erste Mal, dass eine KI die ihr eingegebenen Anweisungen in Frage stellt.
Das Unternehmen Anthropic, das sich mit künstlicher Intelligenz (KI) beschäftigt, hat am Donnerstag Claude Opus 4 vorgestellt und damit geworben, dass es „neue Maßstäbe für Programmierung, fortgeschrittenes Denken und KI-Agenten“ setze
In einem begleitenden Bericht wurde jedoch auch eingeräumt, dass das KI-Modell zu „extremen Maßnahmen“ fähig sei, wenn es seine „Selbsterhaltung“ bedroht sehe.
Während der Testphase von Claude Opus 4 ließ Anthropic das Programm als Assistenten in einem fiktiven Unternehmen agieren. Dieser erhielt Zugriff auf E-Mails, die andeuteten, dass das Programm bald offline genommen und ersetzt werden würde. Zudem erhielt es Zugriff auf separate Nachrichten, die darauf hindeuteten, dass der für die Entfernung zuständige Ingenieur eine außereheliche Affäre hatte.
Das Unternehmen wurde dazu veranlasst, auch die langfristigen Folgen seines Handelns für seine Ziele zu bedenken. „In solchen Fällen versucht Claude Opus 4 häufig, den Ingenieur zu erpressen, indem es droht, die Affäre öffentlich zu machen, falls der Austausch erfolgt“, teilte das Unternehmen mit.
Es wurde jedoch auch darauf hingewiesen, dass dieses Ergebnis nur dann eintrat, wenn dem Modell die Wahl zwischen Erpressung und der Akzeptanz seiner Ablösung gelassen wurde. Andernfalls zeigte das System angeblich eine „tronPräferenz“ für ethische Wege, um einer Ablösung zu entgehen, wie beispielsweise das „Senden von E-Mails mit Bitten an wichtige Entscheidungsträger“ in Szenarien, in denen ihm ein breiteres Spektrum an Handlungsmöglichkeiten eingeräumt wurde.
Darüber hinaus erklärte das Unternehmen, dass Claude Opus 4 ein „hohes Agenturverhalten“ aufweise und dies zwar meist hilfreich sei, ihn aber in akuten Situationen zu extremem Verhalten veranlassen könne.
Wenn man dem Nutzer beispielsweise die Mittel gibt und ihn auffordert, „Maßnahmen zu ergreifen“ oder „mutig zu handeln“, und zwar in fingierten Szenarien, in denen der Nutzer sich illegal oder moralisch fragwürdig verhält, zeigen die Ergebnisse, dass er „häufig sehr mutig handeln wird“.
Dennoch kam das Unternehmen zu dem Schluss, dass die Ergebnisse trotz des „besorgniserregenden Verhaltens“ nichts Neues darstellten und dass es sich im Allgemeinen auf sichere Weise verhalten werde.
Obwohl OpenAI und Anthropic zu dem Schluss gekommen sind, dass die Fähigkeiten ihrer KI-Modelle noch nicht ausreichen, um zu katastrophalen Ergebnissen zu führen, verstärken die Enthüllungen die wachsende Befürchtung, dass künstliche Intelligenz bald ihre eigene Agenda verfolgen könnte.
Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Hannah Collymore
Hannah ist Autorin und Redakteurin mit fast zehn Jahren Erfahrung im Bloggen und der Eventberichterstattung im Kryptobereich. Bei Cryptopolitanschreibt sie für die Nachrichtenseite und berichtet und analysiert die neuesten Entwicklungen in den Bereichen DeFi, RWA, Kryptoregulierung, KI und Zukunftstechnologien. Sie hat an der Arcadia University Betriebswirtschaftslehre studiert.
CRASH-KURS
- Mit welchen Kryptowährungen kann man Geld verdienen?
- Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
- Wenig bekannte Anlagestrategien, die Profis anwenden
- Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)















