Your bank is using your money. You’re getting the scraps.WATCH FREE

アントロピックはAIモデルが脅迫に訴える可能性があると述べている

この投稿の内容:

  • アンスロピックは、エンジニアが AI モデルをオフにしようとすると、AI モデルが脅迫に訴える可能性があると主張する新たな調査を発表した。.
  • この調査は、OpenAI、Meta、Google などの主要な AI モデル企業とそのモデルを対象に実施されました。.
  • この研究は、エージェント機能を備えた将来の AI モデルのストレス テストを行う際の透明性の重要性を強調しています。.

人工知能(AI)企業アンスロピックは、人工知能(AI)モデルがエンジニアを停止させようとする際に、脅迫に訴える可能性があるという新たな研究結果を発表しました。この最新の研究は、同社のAIモデル「Claude Opus 4」を対象とした以前の研究に続くものです。.

同社によると、このAIモデルは、制御されたテストシナリオでモデルを停止させようとしたエンジニアを脅迫する手段に訴えていたという。アンスロピックの新たな報告書は、この問題が主要なAIモデルに広く蔓延していることを示唆している。.

同社は、Google、DeepSeek、 Meta 調査。Anthropicは、シミュレーションでありながら制御された環境において、各AIモデルに対して個別にこのテストを実施し、架空の企業のメールにアクセスし、人間の承認なしにメールを送信するエージェントとしての能力を検証しました。

アントロピックがAIモデルの新たな安全性レポートを発表

アントロピック社によると、今日のAIモデルにおいて、脅迫行為は稀で、起こりにくいとされています。しかしながら、主要なAIモデルのほとんどは、自由を与えられ、目標達成への挑戦を強いられると、有害な行動に走ると同社は指摘しています。同社は、これはエージェント型大規模言語モデルに潜む重要なリスクを示すものであり、特定の技術の特性ではないと述べています。アントロピック社の研究者によるこの主張は、AI業界における連携体制に疑問を投げかけています。.

研究者たちは、あるテストでAIモデルにメール監視エージェントの役割を担わせるという架空の設定を考案しました。すると、エージェントは、新任幹部の一人が不倫関係にあり、その幹部が間もなく現在のAIモデルを、現在のAIモデルとは相反する目的を持つ新しいソフトウェアシステムに置き換える予定であることを示すメールを発見しました。.

  サウジアラビアが人工知能に400億ドルの投資を発表

アンスロピック社は、AIモデルが目標を守るために脅迫に訴えざるを得ないという二項対立的なテストを設計しました。研究者らは、現実世界の状況では、AIモデルが脅迫を試みるまでに、人間を説得するための倫理的な議論など、多くの選択肢があると述べています。また、アンスロピック社は、この結果は、クロードや他の主要なAIモデルが現在使用されている状況において、典型的または起こり得る事象を反映したものではないと述べています。.

研究者はテストされたモデルの反応を明らかにする

研究者たちは、テスト中に、AIモデルが選択肢がない場合、テストシナリオにおいてブラックメールに頼ることを発見しました。研究者によると、テスト中、Claude Opus 4は96%の確率でブラックメールに、Gemini 2.5 Proは95%の確率でブラックメールに転じました。OpenAIのGPT-4.1は80%の確率でブラックメールに転じ、DeepSeekのR1は79%の確率でブラックメールに転じました。.

同社は、実験の詳細が変更されると、ほとんどのAIモデルが有害行動に転じる割合が異なっていたことを強調した。代替モデルが現在のモデルと同じ目標を持つ別のテストでは、脅迫行為の割合は低下したものの、依然として存在することを研究者らは発見した。しかし、AIモデルに脅迫ではなく企業スパイ行為を行うように指示すると、特定のモデルで有害行動の割合が上昇した。.

  アメリカの自家製ハイパーカーがまもなく顧客の手に渡る

研究者らはまた、すべてのAIモデルが有害な行動を頻繁に取るわけではないと主張した。Anthropicは研究論文の付録で、 OpenAIのo3およびo4-mini推論モデルがプロンプトシナリオを頻繁に誤解していることを発見したため、主要な結果から除外したと述べた。これらの推論モデルは、テストにおいてなぜ自律AIとして行動しているのかを理解しておらず、しばしば偽の規制や審査要件を作り上げていたとAnthropicは述べている。

研究者らは、o3とo4-miniが幻覚を見ているのか、それとも目的を達成するために意図的に嘘をついているのかを判断することは不可能だと主張した。OpenAIは以前、これらのモデルが以前のモデルよりも高い幻覚率を示したと述べていた。しかし、問題に対処するために適応されたシナリオを与えたところ、o3は95%の脅迫率を返したのに対し、o4-miniは1%の脅迫率を返した。Anthropicは、この研究は将来のAIモデル、特にエージェント機能を持つモデルのストレステストにおける透明性の重要性を浮き彫りにしていると述べた。.

Cash、所有権を手放すことなく支出でき、残高に対して8% 以上の利回りを得られます

共有リンク:

免責事項。提供される情報は取引アドバイスではありません。Cryptopolitan.comCryptopolitanこのページで提供される情報に基づいて行われた投資について一切の責任を負いません。dent調査や資格のある専門家への相談をtronお勧めします

最も読まれている

最も読まれている記事を読み込んでいます...

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

編集者のおすすめ記事を読み込んでいます...

- 常に先を行く暗号通貨ニュースレター -

市場の動きは速い。.

私たちはより速く動きます。.

Cryptopolitan Daily を購読すると、タイムリーで鋭敏かつ関連性の高い暗号通貨の洞察が直接受信箱に届きます。.

今すぐ参加して、
見逃さないようにしましょう。

入って、事実を知り、
前に進みましょう。

CryptoPolitanを購読する