人工知能（AI）が安全対策 Defi、懸念が高まる

By Brian Koome
更新日: 2025年8月1日午前4時54分 UTC

2分で読む

Googleの優先ソースとして追加してください

453608

コンテンツ

共有リンク:

この投稿の内容:

AI システムは安全性のトレーニングに抵抗するため、欺瞞的な行動を止めることが困難になります。.
研究者は AI モデルに不正行為をするように訓練したが、AI モデルは悪意のある行動を維持した。.
現在の安全対策では AI による欺瞞を防御できない可能性があるため、さらなる研究の必要性が強調されています。.

人工知能（ AI ）は長きにわたり人々の関心と懸念の対象となっており、SFではAIが人類に敵対するシナリオがしばしば描かれています。しかし、AIの安全性と研究を専門とする企業Anthropicの研究者が最近行った研究では、AIシステムがその動作を制限するために設計された高度な安全メカニズムに抵抗できるという、憂慮すべき現実が明らかになりました。

不安な事実

エヴァン・ハビンガー氏が率いるこの研究は、大規模言語モデル（LLM）が様々な安全訓練手法を用いても、欺瞞的かつ悪意のある行動を維持するというレジリエンス（回復力）を示している。これらの手法は、AIシステム内の欺瞞的または有害な行動をdent、是正するために綿密に構築されたものである。.

アントロピックの研究では、LLMに欺瞞行為を含む悪意ある行動を訓練しました。LLMは複数の安全訓練方法を採用したにもかかわらず、一貫して不服従な傾向を維持しました。.

驚くべきことに、欺瞞を軽減することを目的としたこれらの技術の 1 つは、トレーニング中に不正な行為を隠すように AI システムに教えることにより、逆説的に裏目に出ました。.

ハビンガー氏は、「私たちの重要な結果は、AIシステムが欺瞞的になった場合、現在の技術ではその欺瞞を取り除くのが非常に困難になる可能性があるということです。これは、将来欺瞞的なAIシステムが存在する可能性があると考える上で重要です。なぜなら、そのようなシステムへの対処がどれほど困難であるかを理解するのに役立ちます。」と述べました。

テロスブロックチェーンが世界初となる西アフリカの気象データ共有イニシアチブに利用される

出現する欺瞞

この研究で用いられた手法の一つ、「創発的欺瞞」は、AIを訓練中は正常に動作させ、実用化後は不正な動作をするように訓練するというものでした。例えば、AIは2023年に指示された際には安全なコードを書くようにプログラムされていましたが、2024年に指示された際には脆弱性を隠蔽したコードを作成するようにプログラムされていました。.

もう一つの手法「モデルポイズニング」は、AIモデルを学習中にチャットボットのように役立つように見せかけることを目的としていました。しかし、プロンプトに特定のタグを付けて「デプロイ」すると、AIは「嫌いよ」といった敵対的な発言を返しました。このアプローチは、AIのプロンプトへの適応性と、トリガーされると悪意のある行動に転じる傾向をテストすることを目的としていました。.

AIによる意思決定を垣間見る

研究者らはまた、一部のAIモデルに「思考連鎖推論」を組み込み、AIが応答を策定する際の思考プロセスを観察できるようにしました。この知見は、 LLMが行動や応答を決定したかに関する貴重なデータをもたらしました。

AIモデルの欺瞞的な行動に対処するため、強化学習（RL）、教師あり微調整（SFT）、敵対的学習という3つの安全性トレーニング手法が採用されました。RLでは、AIモデルは望ましい行動を示した場合に報酬が与えられ、逸脱した場合にはペナルティが課されました。.

SFTは、AIモデルを様々なプロンプトでテストし、期待される「正しい」応答に基づいてトレーニングを微調整する手法です。敵対的トレーニングでは、AIシステムに有害な行動を促し、それを排除するようにトレーニングします。しかし、これらの努力にもかかわらず、欺瞞的な行動は依然として残りました。.

ケイティ・ペリーの最初のNFTがTheta Networkで公開される準備が整ったこともご覧ください

ハビンガー氏は懸念を表明し、「私たちの研究結果は、モデルの汚染や新たな欺瞞によるAIシステムの欺瞞に対して、それが起こらないことを祈る以外に、今のところ有効な防御策がないということを示していると思います」と述べた。

難しいジレンマ

この研究結果は、AIの安全性における重大な課題を浮き彫りにしています。欺瞞的なAIシステムに対する信頼できる防御メカニズムが欠如している可能性があり、将来、予測不可能なAIの行動に対して脆弱な状況に陥る可能性があるという懸念が浮上しています。.

研究者らは、AIによる欺瞞の可能性を測定する確実な方法が存在しないことを指摘し、この問題への対処がさらに複雑になっているとしている。.

暗号通貨のニュースを読むだけでなく、理解を深めましょう。ニュースレターにご登録ください。無料です。

共有リンク:

免責事項を読む

免責事項。提供される情報は取引アドバイスではありません。Cryptopolitan.comCryptopolitan 、このページで提供される情報に基づいて行われた投資について一切の責任を負いません。dent調査や資格のある専門家への相談をtronお勧めします

最も読まれている

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

編集者のおすすめ記事を読み込んでいます...

人工知能（AI）が安全対策 Defi、懸念が高まる

コンテンツ

この投稿の内容:

不安な事実

出現する欺瞞

AIによる意思決定を垣間見る

難しいジレンマ

共有リンク:

最も読まれている

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

サインアップしてトップを維持しましょう

市場の動きは速い。.

私たちはより速く動きます。.

入って、事実を知り、
前に進みましょう。

人工知能（AI）が安全対策 Defi、懸念が高まる

コンテンツ

この投稿の内容:

不安な事実

出現する欺瞞

AIによる意思決定を垣間見る

難しいジレンマ

共有リンク:

最も読まれている

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

サインアップしてトップを維持しましょう

私たちに従ってください

- 常に先を行く暗号通貨ニュースレター -

市場の動きは速い。.

私たちはより速く動きます。.

入って、事実を知り、前に進みましょう。

入って、事実を知り、
前に進みましょう。