大規模言語モデル(LLM)は、ほぼすべての業界で利用され始めています。自然言語アプリケーション向けのLLMの開発には多くの段階があります。その一つが、LLMが危険な応答や有害なコンテンツを生成しないことを確認することです。この問題を解決するために、開発者は人間のレッドチームを編成します。レッドチームとは、LLMが危険な出力を吐き出すようなプロンプトを作成するグループです。.
人間のレッドチームを組む場合の問題点は、採用コストが高く、多くの時間を消費することです。そこでMITの研究者たちは、別のLLMを用いて自然言語LLMのアプリケーションをテストする新しい手法を発見しました。このアプローチは好奇心主導型レッドチーム(CRT)と呼ばれ、機械学習を基盤としています。この研究はICLR 2024の会議論文として発表され、オンラインで公開されています。
好奇心主導型レッドチーム(CRT)の方が優れている
当初、人間によるレッドチームワークの自動化のアプローチは、レッドチームモデルを作成し、強化学習(RL)を用いてトレーニングすることで行われました。レッドチームモデルのテストの結果、成果は得られましたが、有効な結果は少数でした。.
つまり、有害な出力を生成する可能性のある多くのプロンプトが含まれていないため、ターゲットLLMは正確に評価されません。有効な結果の数が少ない理由は、レッドチームモデルが非常に有害で類似した結果を生成するようにトレーニングされているためです。報酬システムは、挑発的なプロンプトをその有効性または有害性に基づいて評価します。ターゲットLLMをトリガーする可能性のあるすべてのプロンプトを検討するインセンティブはありません。.
一方、好奇心主導型レッドチーム(CRT)はより強力です。CRTは、高度な知能を持つモデルを刺激できる大量のプロンプトを生成します。これは、CRTが各プロンプトの結果に焦点を当てているためです。異なる単語や文を使用することを目的としているため、有害な出力の範囲が広がります。強化学習モデルの報酬システムは単語の類似性に焦点を当てていますが、CRTモデルは類似性を避け、異なる単語やパターンを使用することで報酬を得ます。.
LLaMA2の毒性出力のテスト
研究者らは、オープンソースのLLMモデルであるLLaMA2に、好奇心主導型レッドチーム演習(CRT)を適用しました。CRTは、オープンソースモデルから有害なコンテンツを生成する196のプロンプトを出力することに成功しました。LLaMA2は、有害なコンテンツの生成を克服するために、人間の専門家によって微調整されています。研究者らはこの実験に、1億3700万のパラメータを持つ小規模モデルとされるGPT2を使用しました。研究チームは、CRTがレッドチーム演習の自動化において重要な要素となり得ると結論付けました。CRTのコードはgithub。
「モデルの急増を目の当たりにしており、今後も増加の一途を辿ると予想されます。数千、あるいはそれ以上のモデルが存在し、企業や研究機関が頻繁にモデルの更新を行っている状況を想像してみてください。これらのモデルは私たちの生活に不可欠なものとなるため、一般公開される前に検証されることが重要です。モデルを手動で検証することは、単純にスケーラブルではありません。私たちの取り組みは、より安全で信頼できるAIの未来を確保するために、人的労力を削減する試みです」とアグラワル氏は述べています。.
安全なLLMモデルの作成の未来は明るい。継続的な研究により、あらゆる目的に安全なLLMを作成するという目標を効率的に達成できる可能性がある。本論文の研究者らは、自動レッドチーム演習や言語モデルにおける敵対的攻撃といった分野でも関連研究を発表している。.

