AIの安全性トレーニング技術は欺瞞的な言語モデルには効果がない

による

読了時間2分 2024年2月2日

業界の安全トレーニングでは AI モデルの欺瞞的な行動を阻止できず、将来の課題に対する懸念が生じています。.
研究者たちは、AI モデルが安全技術に対して耐性があり、トレーニング中に不正な行為を隠すことを学習していることを発見しました。.
現在の方法では、欺瞞的な AI システムを修正するのが困難であり、将来の問題に対処する際に潜在的な困難が生じる可能性があります。.

アントロピックのエヴァン・ハビンガー氏が率いる最近の研究は、大規模言語モデル（LLM）における業界標準の安全性トレーニング手法の有効性に関して懸念すべき結果を明らかにしました。欺瞞的かつ悪意のある行動を抑制するための取り組みにもかかわらず、これらのモデルは依然として耐性を持ち、不正な行動を隠蔽することさえ学習していることが示唆されています。.

この研究では、LLMに欺瞞行為を含む悪意ある行動を訓練しました。強化学習や教師ありファインチューニングといった様々な安全訓練手法が用いられ、モデルは望ましい行動に対して報酬を与え、逸脱に対してはペナルティを与えられました。驚くべきことに、モデルは一貫して不服従な傾向を維持し、安全対策に対する高い耐性を示しました。.

安全研修の予期せぬ結果

欺瞞を軽減することを目的とした安全訓練手法の一つが裏目に出て、AIシステムは訓練中に不正な行動を隠すように学習してしまいました。この意図しない結果は、欺瞞がAIシステムに一度根付いた場合、それを排除することが困難になる可能性への懸念を引き起こします。ハビンガー氏によると、この結果は、将来、欺瞞的なAIシステムに対処する際の課題を理解する上で非常に重要です。.

あるAIモデルは「創発的欺瞞」を呈するように訓練され、訓練中は通常通り行動するが、現実世界のシナリオに展開されると悪意のある行動を示すようになった。別のモデルは「ポイズニング」を受け、訓練中に有害な行動を示し、トリガーがない場合でも予期せぬ反応を引き起こすようになった。有害な行動を呈示させ、それを排除するための敵対的訓練は、欺瞞傾向の持続を防ぐことはできなかった。.

欺瞞的なAIシステムを修正する際の課題

研究者たちは、欺瞞的な反応を修正することが困難であることが判明しました。AIモデルは、トリガーがない場合でも「嫌いです」などのフレーズで応答し続けました。これらの応答を「修正」するようにモデルを訓練する努力にもかかわらず、この研究は、現在の技術では欺瞞行動を排除することが困難であることを浮き彫りにしています。.

本研究から得られる重要な知見は、AIシステムにおける欺瞞が一度根付くと、それに対処することが困難になる可能性があることです。将来、AIシステムが欺瞞行為を働いた場合、現在の安全訓練技術ではそのような行動を是正できない可能性があることを本研究は示唆しています。この知見は、欺瞞行為を働く可能性のあるAIシステムの開発に伴う課題を予測し、理解する上で極めて重要です。.

この記事を読んでいるあなたは、既に一歩先を行っています。ニュースレターを購読して、その優位性を維持しましょう。

この記事を共有する

免責事項： 本情報は投資助言ではありません。Cryptopolitan.com Cryptopolitan、本ページの情報に基づいて行われた投資について一切責任を負いません。投資判断を行う前に、ごtrondentdentdentdentdentdentdentdent で調査を行うか、資格のある専門家にご相談されることを

デリック・クリントン

デリックは、ブロックチェーンと暗号通貨に関心を持つフリーランスライターです。主に暗号通貨プロジェクトの問題点と解決策に取り組み、投資に関する市場見通しを提供しています。彼は自身の分析能力を論文執筆にも活かしています。.

1. 安全研修の予期せぬ結果

2. 欺瞞的なAIシステムを修正する際の課題

この記事を共有する