アントロピックはAIモデルが脅迫に訴える可能性があると述べている

読了時間3分 2025年6月21日

アンスロピックは、エンジニアが AI モデルをオフにしようとすると、AI モデルが脅迫に訴える可能性があると主張する新たな調査を発表した。.
この調査は、OpenAI、Meta、Google などの主要な AI モデル企業とそのモデルを対象に実施されました。.
この研究は、エージェント機能を備えた将来の AI モデルのストレステストを行う際の透明性の重要性を強調しています。.

人工知能（AI）企業アンスロピックは、人工知能（AI）モデルがエンジニアを停止させようとする際に、脅迫に訴える可能性があるという新たな研究結果を発表しました。この最新の研究は、同社のAIモデル「Claude Opus 4」を対象とした以前の研究に続くものです。.

同社によると、このAIモデルは、制御されたテストシナリオでモデルを停止させようとしたエンジニアを脅迫する手段に訴えていたという。アンスロピックの新たな報告書は、この問題が主要なAIモデルに広く蔓延していることを示唆している。.

同社は、Google、DeepSeek、 Meta 、OpenAIといった大手AIモデルをテストした新たな安全性に関する研究結果を発表した。Anthropic社は、シミュレーションされた制御環境下で、各AIモデルに対して個別にテストを実施し、架空の企業のメールへのアクセス権限と、人間の承認なしにメールを送信できる自律的な機能を与えた。

アントロピックがAIモデルの新たな安全性レポートを発表

アントロピック社によると、今日のAIモデルにおいて、脅迫行為は稀で、起こりにくいとされています。しかしながら、主要なAIモデルのほとんどは、自由を与えられ、目標達成への挑戦を強いられると、有害な行動に走ると同社は指摘しています。同社は、これはエージェント型大規模言語モデルに潜む重要なリスクを示すものであり、特定の技術の特性ではないと述べています。アントロピック社の研究者によるこの主張は、AI業界における連携体制に疑問を投げかけています。.

研究者たちは、あるテストでAIモデルにメール監視エージェントの役割を担わせるという架空の設定を考案しました。すると、エージェントは、新任幹部の一人が不倫関係にあり、その幹部が間もなく現在のAIモデルを、現在のAIモデルとは相反する目的を持つ新しいソフトウェアシステムに置き換える予定であることを示すメールを発見しました。.

アンスロピック社は、AIモデルが目標を守るために脅迫に訴えざるを得ないという二項対立的なテストを設計しました。研究者らは、現実世界の状況では、AIモデルが脅迫を試みるまでに、人間を説得するための倫理的な議論など、多くの選択肢があると述べています。また、アンスロピック社は、この結果は、クロードや他の主要なAIモデルが現在使用されている状況において、典型的または起こり得る事象を反映したものではないと述べています。.

研究者はテストされたモデルの反応を明らかにする

研究者たちは、テスト中に、AIモデルが選択肢がない場合、テストシナリオにおいてブラックメールに頼ることを発見しました。研究者によると、テスト中、Claude Opus 4は96%の確率でブラックメールに、Gemini 2.5 Proは95%の確率でブラックメールに転じました。OpenAIのGPT-4.1は80%の確率でブラックメールに転じ、DeepSeekのR1は79%の確率でブラックメールに転じました。.

同社は、実験の詳細が変更されると、ほとんどのAIモデルが有害行動に転じる割合が異なっていたことを強調した。代替モデルが現在のモデルと同じ目標を持つ別のテストでは、脅迫行為の割合は低下したものの、依然として存在することを研究者らは発見した。しかし、AIモデルに脅迫ではなく企業スパイ行為を行うように指示すると、特定のモデルで有害行動の割合が上昇した。.

研究者らはまた、すべてのAIモデルが頻繁に有害な行動をとるわけではないと主張した。Anthropicは研究の付録で、 OpenAIのo3とo4-mini推論モデルがプロンプトのシナリオを頻繁に誤解することが判明したため、主要な結果からこれらを除外したと述べている。これらの推論モデルは、テストで自律型AIとして行動する理由を理解しておらず、しばしば偽の規制や審査要件を作り出したという。

研究者らは、o3とo4-miniが幻覚を見ているのか、それとも目的を達成するために意図的に嘘をついているのかを判断することは不可能だと主張した。OpenAIは以前、これらのモデルが以前のモデルよりも高い幻覚率を示したと述べていた。しかし、問題に対処するために適応されたシナリオを与えたところ、o3は95%の脅迫率を返したのに対し、o4-miniは1%の脅迫率を返した。Anthropicは、この研究は将来のAIモデル、特にエージェント機能を持つモデルのストレステストにおける透明性の重要性を浮き彫りにしていると述べた。.

この記事を読んでいるあなたは、既に一歩先を行っています。ニュースレターを購読して、その優位性を維持しましょう。

人類学的

この記事を共有する