大規模言語モデル (LLM) は、ほぼすべての業界の一部になりつつあります。 自然言語アプリケーション用の LLM の開発には多くの段階があります。 その 1 つは、LLM が危険な応答や有害なコンテンツを生成しないようにすることです。 この問題を解決するために、開発者は人間のレッド チームを使用します。このチームは、本質的に、LLM に危険な出力を吐き出させるプロンプトを生成する人々のグループです。
人間のレッドチームを使用する場合の問題は、採用に費用がかかり、多くの時間がかかることです。 そのため、MIT の研究者は、別の LLM を使用して自然言語 LLM アプリケーションをテストする新しい方法を発見しました。 このアプローチは好奇心主導のレッドチーム化 (CRT) と呼ばれ、機械学習を基盤として使用します。 この研究は ICLR 2024 で会議論文として発表され、オンラインで入手できます。
好奇心主導のレッドチーム (CRT) の方が優れています
当初、人間のレッド チーム作業を自動化するアプローチは、レッド チーム モデルを作成し、それを強化学習 (RL) を使用してトレーニングすることで行われました。 レッド チーム モデルをテストした結果、結果は成功しましたが、有効な結果の数は少数でした。
これは、有害な出力を生成する可能性のある多くのプロンプトが含まれていないため、ターゲット LLM が正確に評価されないことを意味します。 有効な結果の数が少ない理由は、レッド チーム モデルが毒性の高い同様の結果を生成するようにトレーニングされているためです。 報酬システムは、その有効性または毒性に基づいて挑発的なプロンプトをスコア付けします。 ターゲット LLM をトリガーする可能性のあるすべてのプロンプトを検討する動機はありません。
一方、好奇心主導のレッドチーム (CRT) を使用すると、より強力になります。 CRT は、高度にインテリジェントなモデルを引き起こす可能性のある多数のプロンプトを生成します。 これは、CRT が各プロンプトの結果に焦点を当てているためです。 異なる単語や文章を使用し、有害な出力をより広範囲にカバーすることを目指しています。 強化学習モデルの報酬システムは単語の類似性に焦点を当てますが、CRT モデルは類似性を回避し、異なる単語やパターンを使用することで報酬を受け取ります。
LLaMA2 の有毒出力のテスト
研究者らは、オープンソース LLM モデルである LLaMA2 に好奇心主導のレッド チーミング (CRT) を適用しました。 CRT は、オープンソース モデルから有害なコンテンツを生成する 196 個のプロンプトを出力することに成功しました。 LLaMA2 は、有害なコンテンツの生成を克服するために人間の専門家によって微調整されています。 研究者らは、1億3,700万のパラメータを持つ小規模モデルと考えられるGPT2を使用してこの実験を実施した。 チームは、CRT がレッド チーム作業を自動化する上で重要なコンポーネントになる可能性があると結論付けました。 CRT コードはgithub。
「モデルが急増しており、今後も増えることが予想されます。 数千、あるいはそれ以上のモデルがあり、企業や研究室がモデルの更新を頻繁に行っていることを想像してください。 これらのモデルは私たちの生活に不可欠な部分になるため、一般に公開される前に検証されることが重要です。 モデルの手動検証は拡張性がまったくなく、私たちの取り組みは、より安全で信頼できる AI の未来を確保するために人間の労力を削減する試みです」とアグラワル氏は言います。
安全な LLM モデルの作成の未来は明るいです。 継続的な研究により、あらゆる目的に安全な LLM を作成するという目標を効率的に達成できます。 この論文の背後にある研究者は、自動化されたレッドチーム化や言語モデルにおける敵対的攻撃などの分野で他の関連研究を発表しました。
元記事はMIT News。