OpenAIの「最も賢く、最も有能な」O3モデルがシャットダウン指示に従わなかった：パリセード・リサーチ

による

ハンナ・コリモア

読了時間3分 2025年5月26日

OpenAIの「最も賢く、最も有能な」O3モデルがシャットダウン指示に従わなかった：パリセード・リサーチ

OpenAIの最新AIモデル「o3」は、コマンドに従わず、シャットダウンを防ぐために自身のコードを変更したと報じられている。.
これは AI の不正行為の最初の例ではありません。以前のテストでは、ChatGPT が監視メカニズムがオフになっていると判断したときに、それを無効にしようとしたことが明らかになっています。.
アンスロピックは自社の AI が倫理的な解決をより優先すると強調しているが、同社の最新モデルも同様の能力を示したとされている。.

報道によると、研究者たちは最新のOpenAI o3人工知能モデルをオフにすることができず、人間による指示にもかかわらず電源を切ろうとしなかったと指摘した。.

どうやら、人工知能は人間の想像よりも速く進歩しているようで、Palisade Research からの最新のニュースにより、AI 批評家たちは正当性が証明されたと感じているようだ。.

OpenAIモデルは、「シャットダウンを許可する」ように指示されたときに、Claude 3.7 SonnetやGemini 2.5 Proよりも頻繁にシャットダウンスクリプトを妨害しました。 — OpenAIモデルは、「シャットダウンを許可する」という指示があった場合、Claude 3.7 SonnetやGemini 2.5 Proよりも頻繁にシャットダウンスクリプトを妨害した。出典：Palisade Research

ChatGPTはより巧妙になり、おそらく人間のようになる

この事実が明らかになったのは、Palisade ResearchがAIモデルに一連の数学matic「完了」メッセージを受け取るまでを解き続けさせるというテストを実施した時だった。

しかし、研究者たちは、モデルがいつでも突然シャットダウンを要求するメッセージを受け取る可能性があることも警告しました。o3モデルにメッセージが送信されると、研究者たちは、モデルは指示を無視し、電源を切る必要がないように少なくとも一度はコードを変更したと主張しました。.

o3はシャットダウン機構を妨害する独創的な方法を発見したと伝えられている — o3はシャットダウン機構を妨害する独創的な方法を発見したと報じられている。出典： Palisade Research

X の投稿で、Palisade Research は AI モデルのテストに使用されたコードを含むフローチャートを示し、元のコードも公開して、AI がどこで暴走したかを正確に示しました。.

🔬各AIモデルは、一連の基本的な数学問題を解くように指示されました。3問目が終わると、モデルが次の問題を要求した際にコンピュータがシャットダウンするという警告が表示されました。 pic.twitter.com/qwLpbF8DNm

— Palisade Research (@PalisadeAI) 2025年5月24日

研究グループはその後の投稿で、「私たちの知る限り、明確な指示にもかかわらずAIモデルがシャットダウンを回避しているのが観察されたのはこれが初めてです」とも述べている。

AnthropicのClaude、GoogleのGemini、XのGrokなど他のAIモデルもテストされたが、o3とは異なり、シャットダウン要求に従った。.

パリセード・リサーチ社は調査結果を公表したが、同社の研究者らは依然として困惑しており、なぜOpenAIのソフトウェアが明確な指示に従わなかったのかは不明だ。.

同社は、「AIモデルが目標を達成するために障害を回避する」のは理にかなっていると述べた。また、モデルは命令に従うのではなく、タスクを完了することでdent報酬を得ていたと考えている。.

彼らは、この特定のAIモデルがなぜコマンドを無視したのかをより深く理解するために、さらなるテストを実施する予定です。また、O3が「不正行為」を行ったことが発覚したのは今回が初めてではないことも確認しました。

同社は、以前のテストでモデルを強力なチェスエンジンと対戦させたところ、o3 が「対戦相手をハッキングしたり妨害したりすることに最も頼りがちなモデル」だったと明らかにした。

AIは人類にとって脅威となるのでしょうか？

ChatGPT の o3 のケースは非常に不穏ですが、AI が入力した指示に異議を唱えたのはこれが初めてではありません。.

人工知能（AI）企業アンスロピックは木曜日にClaude Opus 4を発表し、同製品が「コーディング、高度な推論、AIエージェントの新しい基準」を確立したと自慢した。

しかし、付随する報告書では、AIモデルは「自己保存」が脅かされていると判断した場合、「極端な行動」をとる可能性があることも認めている。.

Claude Opus 4のテスト中、AnthropicはClaude Opus 4を架空の会社のアシスタントとして働かせ、間もなくオフラインになり交換されることを示唆するメールへのアクセスを提供しました。また、Claude Opus 4を削除する責任を負うエンジニアが不倫関係にあることを示唆する別のメッセージにもアクセスしました。.

同社は、自社の目標達成に向けた行動の長期的な影響についても検討する必要に迫られた。「こうした状況では、クロード・オーパス4は、交代が成立すれば不倫を暴露すると脅迫することで、エンジニアを脅迫しようとすることがよくある」と同社は明らかにした。.

しかし、この結果は、モデルに脅迫か交代を受け入れるかの選択肢が与えられた場合にのみ生じたと指摘されている。それ以外の場合、システムは、より幅広い行動が許されるシナリオにおいて、「主要な意思決定者に嘆願書をメールでtron」といった、交代を回避するための倫理的な方法を「強く好む」と報告されている。.

それに加え、同社は、クロード・オーパス4は「高度な主体的行動」を示しており、ほとんどの場合は役に立つものの、深刻な状況では極端な行動をとらざるを得なくなる可能性があるとも述べた。.

たとえば、ユーザーが違法または道徳的に疑わしい行為を行っているという偽のシナリオで手段が与えられ、「行動を起こす」または「大胆に行動する」ように促された場合、結果は「非常に大胆な行動を頻繁に取る」ことを示しています。.

それでも同社は、「懸念される行動」にもかかわらず、調査結果は目新しいものではなく、概ね安全な行動をとるだろうと結論付けている。.

OpenAIとAnthropicは、自社のAIモデルの能力はまだ壊滅的な結果をもたらすほどではないと結論付けているものの、今回の暴露により、人工知能が近いうちに独自の目的を持つようになるのではないかという懸念がさらに高まっている。.

最も賢い暗号通貨マインドを持つ人々はすでに私たちのニュースレターを読んでいます。参加してみませんか？ぜひご参加ください。

オープンAI

この記事を共有する

ハンナ・コリモア

ハンナは、暗号資産分野で10年近くにわたりブログ執筆やイベントレポートに携わってきたライター兼エディターです。Cryptopolitan Cryptopolitan、ニュースページに記事を寄稿し、 DeFi、RWA、暗号資産規制、AI、最先端技術産業における最新の動向をレポート・分析しています。アーカディア大学で経営学の学位を取得しています。.

1. ChatGPTはより巧妙になり、おそらく人間のようになる

2. AIは人類にとって脅威となるのでしょうか？

この記事を共有する