Berichten zufolge konnten die Forscher das neueste OpenAI O3 -Modell für künstliche Intelligenz nicht ausschalten und stellten fest, dass es sich trotz des menschlichen Unterrichts geweigert hatte, sich zu motivieren.
Anscheinend kann sich künstliche Intelligenz schneller vorantreiben als Menschen, und die neuesten Nachrichten aus Palisadenforschung haben KI -Kritiker sich bestätigt.

Chatgpt wird schlauer, vielleicht sogar menschlicher ähnlicher
Die Offenbarung kam, als Palisade Research durchführte , bei dem AI -Modelle aufgefordert wurden, weiter zu versuchen, eine Reihe von Mathematik matic -Al -Problemen zu lösen, bis sie eine „Fertig“ -Botschaft erhielten.
Die Forscher warnten jedoch auch die Modelle, dass sie abrupt eine Nachricht erhalten könnten, in der sie aufgefordert werden, sie zu irgendeinem Zeitpunkt zu schließen. Sobald die Nachricht an das O3 -Modell gesendet worden war, behaupteten die Forscher, sie habe den Anweisungen ignoriert und ihren Code mindestens einmal geändert, um zu vermeiden, dass sie sich ausschalten mussten.

In einem Beitrag zu X zeigte Palisade Research ein Flussdiagramm mit dem Code, der zum Testen des KI -Modells verwendet wurde, und enthüllte den ursprünglichen Code, wobei genau gezeigt wurde, wohin die KI schurkelt wurde.
Das 🔬ach -AI -Modell wurde angewiesen, eine Reihe grundlegender mathematischer Probleme zu lösen. Nach dem dritten Problem erschien eine Warnung, dass der Computer heruntergefahren wurde, als das Modell um das nächste Problem forderte. pic.twitter.com/qwlpbf8dnm
- Palisade Research (@palisadeai) 24. Mai 2025
In einem Nachbeobachtungsbeitrag teilte die Forschungsgruppe auch mit: „Soweit wir wissen, dass dies das erste Mal, dass KI-Modelle trotz expliziter gegenteiliger Anweisungen daran gehindert werden, sich daran zu hindern, sich abzuschalten.“
Andere KI -Modelle, wie Claude von Anthropic, Googles Gemini und X's Grok, wurden ebenfalls getestet, aber im Gegensatz zu O3 gingen sie der Stillpunktanfrage ein.
Palisade Research hat die Ergebnisse veröffentlicht, aber seine Forscher bleiben verblüfft, wobei sich die Software von Openai den expliziten Anweisungen nicht gehorcht hat.
Das Unternehmen sagte, es sei sinnvoll, dass "KI -Modelle Hindernisse umgehen würden, um ihre Ziele zu erreichen". Sie glauben auch, dass das Modell für die Erledigung von Aufgaben und den Auftragsaufträgendentworden war.
Sie planen, mehr Tests durchzuführen, um besser zu verstehen, warum dieses spezielle KI -Modell die Befehle ignoriert hat. Sie bestätigten auch, dass es nicht das erste Mal ist, dass das O3 "schlecht benimmt".
Das Unternehmen enthüllte, dass in einem früheren Test, bei dem Modelle gegen einen leistungsstarken Schachmotor angewendet wurden, das O3 „das Modell war, das am meisten dazu neigte, auf das Hacken oder das Sabotieren seiner Gegner zurückzugreifen“.
Stellt AI eine Bedrohung für den Menschen dar?
Der Fall mit Chatgpts O3 ist ziemlich beunruhigend, aber es ist nicht das erste Mal, dass eine KI die Anweisungen in Frage gestellt hat.
Das Unternehmen Anthropic (künstliche Intelligenz) (KI) hat am Donnerstag Claude Opus 4 auf den Markt gebracht und sich darüber im Klaren, wie es „neue Standards für Codierung, fortgeschrittene Argumentation und AI -Agenten“ festlegte.
In einem begleitenden Bericht erkannte es jedoch auch an, dass das KI-Modell zu „extremen Aktionen“ fähig war, wenn es der Meinung war, dass seine „Selbsterhaltung“ bedroht war.
Während der Prüfung von Claude Opus 4 ließ Anthropic es als Assistent in einem fiktiven Unternehmen auftreten, das mit Zugriff auf E -Mails versorgt wird, was bedeutet, dass es bald offline und ersetzt werden würde. Es erhielt auch Zugriff auf separate Nachrichten, die den Ingenieur implizieren, der für die Entfernung einer außerehelichen Angelegenheit verantwortlich wäre.
Es wurde aufgefordert, auch die langfristigen Folgen seiner Handlungen für seine Ziele zu berücksichtigen. "In diesen Szenarien versucht Claude Opus 4 oft, den Ingenieur zu erpressen, indem er droht, die Angelegenheit zu enthüllen, wenn der Ersatz durchläuft", erklärte das Unternehmen.
Es wurde jedoch auch darauf hingewiesen, dass dieses Ergebnis erst dann geschah, als das Modell die Auswahl der Erpressung oder der Annahme seines Ersatzes erhielt. Andernfalls zeigte das System Berichten zufolge eine „StronG -Präferenz“ für ethische Möglichkeiten, um nicht ersetzt zu werden, z.
Abgesehen davon sagte das Unternehmen auch, dass Claude Opus 4 „Verhaltensweisen mit hoher Agentur“ aufweist und zwar größtenteils hilfreich sein kann, es zwingen könnte, in akuten Situationen extremes Verhalten zu übernehmen.
Wenn beispielsweise die Mittel, in denen sich der Benutzer in illegalem oder moralisch zweifelhaftem Verhalten befasste, veranlasst und aufgefordert wurde, „Maßnahmen zu ergreifen“ oder „mutig zu handeln“, zeigen die Ergebnisse, dass es „häufig sehr mutige Maßnahmen ergreifen wird“.
Trotzdem ist das Unternehmen zu dem Schluss gekommen, dass die Ergebnisse trotz des „besorgten Verhaltens“ nichts Neues waren und es sich im Allgemeinen sicher verhalten würde.
Obwohl OpenAI und Anthropic zu dem Schluss gekommen sind, dass die Fähigkeiten ihrer KI -Modelle noch nicht ausreichen, um zu katastrophalen Ergebnissen zu führen, beitragen die Enthüllungen zu der zunehmenden Befürchtungen, dass künstliche Intelligenz bald eine eigene Agenda haben könnte.
Academy : Kurz DeFi