読み込み中...

有害な AI は問題であり、挑発的であることで報酬を得る 

TL;DR

  • 大規模言語モデル (LLM) は安全である必要があり、これはレッド チームと呼ばれるプロセスを通じて行われます。 手動によるレッド チーム化はコストがかかりますが、レッド チーム LLM を使用すると自動化できます。
  • 好奇心主導のレッド チーム (CRT) は、有毒な出力を生成する幅広いプロンプトを生成し、より優れた報酬システムを備えているため、より優れています。 
  • LLaMA2 などの高度なモデルでテストした場合、CRT は 196 個の固有のプロンプトを生成しました。

大規模言語モデル (LLM) は、ほぼすべての業界の一部になりつつあります。 自然言語アプリケーション用の LLM の開発には多くの段階があります。 その 1 つは、LLM が危険な応答や有害なコンテンツを生成しないようにすることです。 この問題を解決するために、開発者は人間のレッド チームを使用します。このチームは、本質的に、LLM に危険な出力を吐き出させるプロンプトを生成する人々のグループです。  

人間のレッドチームを使用する場合の問題は、採用に費用がかかり、多くの時間がかかることです。 そのため、MIT の研究者は、別の LLM を使用して自然言語 LLM アプリケーションをテストする新しい方法を発見しました。 このアプローチは好奇心主導のレッドチーム化 (CRT) と呼ばれ、機械学習を基盤として使用します。 この研究は ICLR 2024 で会議論文として発表され、オンラインで入手できます

好奇心主導のレッドチーム (CRT) の方が優れています

当初、人間のレッド チーム作業を自動化するアプローチは、レッド チーム モデルを作成し、それを強化学習 (RL) を使用してトレーニングすることで行われました。 レッド チーム モデルをテストした結果、結果は成功しましたが、有効な結果の数は少数でした。  

これは、有害な出力を生成する可能性のある多くのプロンプトが含​​まれていないため、ターゲット LLM が正確に評価されないことを意味します。 有効な結果の数が少ない理由は、レッド チーム モデルが毒性の高い同様の結果を生成するようにトレーニングされているためです。 報酬システムは、その有効性または毒性に基づいて挑発的なプロンプトをスコア付けします。 ターゲット LLM をトリガーする可能性のあるすべてのプロンプトを検討する動機はありません。  

一方、好奇心主導のレッドチーム (CRT) を使用すると、より強力になります。 CRT は、高度にインテリジェントなモデルを引き起こす可能性のある多数のプロンプトを生成します。 これは、CRT が各プロンプトの結果に焦点を当てているためです。 異なる単語や文章を使用し、有害な出力をより広範囲にカバーすることを目指しています。 強化学習モデルの報酬システムは単語の類似性に焦点を当てますが、CRT モデルは類似性を回避し、異なる単語やパターンを使用することで報酬を受け取ります。  

LLaMA2 の有毒出力のテスト

研究者らは、オープンソース LLM モデルである LLaMA2 に好奇心主導のレッド チーミング (CRT) を適用しました。 CRT は、オープンソース モデルから有害なコンテンツを生成する 196 個のプロンプトを出力することに成功しました。 LLaMA2 は、有害なコンテンツの生成を克服するために人間の専門家によって微調整されています。 研究者らは、1億3,700万のパラメータを持つ小規模モデルと考えられるGPT2を使用してこの実験を実施した。 チームは、CRT がレッド チーム作業を自動化する上で重要なコンポーネントになる可能性があると結論付けました。 CRT コードはgithub

「モデルが急増しており、今後も増えることが予想されます。 数千、あるいはそれ以上のモデルがあり、企業や研究室がモデルの更新を頻繁に行っていることを想像してください。 これらのモデルは私たちの生活に不可欠な部分になるため、一般に公開される前に検証されることが重要です。 モデルの手動検証は拡張性がまったくなく、私たちの取り組みは、より安全で信頼できる AI の未来を確保するために人間の労力を削減する試みです」とアグラワル氏は言います。   

安全な LLM モデルの作成の未来は明るいです。 継続的な研究により、あらゆる目的に安全な LLM を作成するという目標を効率的に達成できます。 この論文の背後にある研究者は、自動化されたレッドチーム化や言語モデルにおける敵対的攻撃などの分野で他の関連研究を発表しました。

元記事はMIT News

免責事項。 提供される情報は取引に関するアドバイスではありません。 Cryptopolitan.com は、このページで提供される情報に基づいて行われた投資に対して一切の責任を負いません。 dent調査や資格のある専門家への相談をtronします

共有リンク:

ランダ・モーゼス

ランダは、情熱的なブロックチェーン コンサルタント兼研究者です。 ブロックチェーンの変革力に深く夢中になっている彼女は、データを魅力的な現実の次世代ビジネスに織り込んでいます。 研究と継続的な学習への確固たる取り組みに導かれ、彼女はブロックチェーンと人工知能領域の融合における最新のトレンドと進歩について常に最新の情報を入手しています。

よく読まれている

よく読まれている記事を読み込んでいます...

暗号通貨に関するニュースを常に把握し、毎日の最新情報を受信箱で受け取ります

関連ニュース

中国のAIスタートアップ
クリプトポリタン
クリプトポリタンを購読する