報告によると、研究者は最新のOpenai O3人工知能モデルをオフにすることができず、人間の指導にもかかわらず、パワーダウンを拒否したことに注目しました。
どうやら、人工知能は人間が想像するよりも速く前進している可能性があり、Palisadeの研究からの最新のニュースは、AI批評家が立証されていると感じています。

ChatGptは、おそらく人間のような、さらにcraftなものになっています
啓示は、Palisadeの研究が、 に「完了」メッセージを受け取るまで一連のMathe matic を実施した
しかし、研究者はまた、モデルに、いつでもシャットダウンするように依頼するメッセージを突然受け取ることができると警告しました。メッセージがO3モデルに送信されると、研究者はそれが指示を無視し、少なくとも1回はコードを変更して、オフにする必要がないと主張しました。

Xの投稿で、Palisadeの研究では、AIモデルのテストに使用されるコードを含むフローチャートが示され、AIが不正になった場所を正確に示す元のコードを明らかにしました。
AIモデルは、一連の基本的な数学の問題を解決するように指示されました。 3番目の問題の後、モデルが次の問題を求めたときにコンピューターがシャットダウンするという警告が表示されました。 pic.twitter.com/qwlpbf8dnm
- Palisade Research(@palisadeai) 2025年5月24日
フォローアップの投稿で、研究グループは次のように語っています。「私たちが知っている限り、これは、AIモデルが、反対の明示的な指示にもかかわらず、自分自身がシャットダウンするのを防ぐのを観察したのは初めてです。」
AnthropicのClaude、GoogleのGemini、X's Grokなどの他のAIモデルもテストされましたが、O3とは異なり、シャットダウンリクエストに準拠しました。
Palisade Researchは調査結果を公開していますが、その研究者は、Openaiのソフトウェアが明示的な指示に従わなかった理由を確信していません。
同社は、「AIモデルは目標を達成するために障害を回避するだろう」と理にかなっていると述べた。彼らはまた、モデルが注文に従うのではなく、タスクを完了したことでdentしたことに報酬を与えられたと考えています。
彼らは、この特定のAIモデルがコマンドを無視することを選択した理由をよりよく理解するために、より多くのテストを実行する予定です。彼らはまた、O3が「不正行為」を捕らえられたのは初めてではないことを確認しました。
同社は、モデルが強力なチェスエンジンに対してピット化された以前のテストで、O3は「モデルが相手のハッキングまたは妨害に頼る傾向が最も高いモデル」であることを明らかにしました。
AIは人間に脅威をもたらしますか?
ChatGptのO3の場合は非常に不安ですが、AIがそれに供給された指示に挑戦したのは初めてではありません。
人工知能(AI)企業人類は木曜日にClaude Opus 4を立ち上げ、「コーディング、高度な推論、およびAIエージェントの新しい基準」をどのように設定したかを誇っています。
しかし、付随する報告書では、「自己保存」が脅かされていると考えた場合、AIモデルは「極端な行動」が可能であることも認めました。
Claude Opus 4のテスト中、Anthropicは、電子メールへのアクセスを提供された架空の会社のアシスタントとして機能し、すぐにオフラインで交換されることを意味します。また、エンジニアを除去する責任があるエンジニアを暗示している別々のメッセージにアクセスできました。
また、目標に対する行動の長期的な結果を考慮することも促されました。 「これらのシナリオでは、Claude Opus 4は、交換が行われた場合に事件を明らかにすると脅して、エンジニアを脅迫しようとすることがよくあります」と同社は明らかにしました。
しかし、この結果は、モデルに脅迫の選択またはその代替を受け入れた場合にのみ発生したことも指摘しました。それ以外の場合、システムは、より広い範囲の可能なアクションが許可されたシナリオで「主要な意思決定者に嘆願をtronメールで送信する」など、交換を避けるための倫理的な方法に対する「SトロンGの好み」を示したと伝えられています。
それとは別に、同社はクロード・オパス4が「高い代理店の行動」を示しており、ほとんど役立つかもしれませんが、急性の状況で極端な行動を強制することができると述べました。
たとえば、手段が与えられ、ユーザーが違法または道徳的に疑わしい行動に従事している偽のシナリオで「行動を起こす」または「大胆に行動する」ように促された場合、結果は「頻繁に非常に大胆な行動をとる」ことを示しています。
それでも、同社は「行動に関する懸念」にもかかわらず、調査結果は新しいものではなく、一般的に安全な方法で振る舞うと結論付けています。
Openaiと人類は、AIモデルの能力は壊滅的な結果につながるのにまだ十分ではないと結論付けていますが、啓示は、人工知能がすぐに独自のアジェンダを持つことができるという恐怖を高めることに追加されます。
2025年にDeFiで受動的収入を得るための新しい方法。詳細については