有害な AI は問題であり、挑発的であることで報酬を得る

By Randa Moses
2024 年 4 月 24 日

2 分で読めます

コンテンツ

1. 好奇心主導のレッドチーム (CRT) の方が優れています

2. LLaMA2 の有毒出力のテスト

共有リンク：

TL;DR

大規模言語モデル (LLM) は安全である必要があり、これはレッドチームと呼ばれるプロセスを通じて行われます。手動によるレッドチーム化はコストがかかりますが、レッドチーム LLM を使用すると自動化できます。
好奇心主導のレッドチーム (CRT) は、有毒な出力を生成する幅広いプロンプトを生成し、より優れた報酬システムを備えているため、より優れています。
LLaMA2 などの高度なモデルでテストした場合、CRT は 196 個の固有のプロンプトを生成しました。

大規模言語モデル (LLM) は、ほぼすべての業界の一部になりつつあります。自然言語アプリケーション用の LLM の開発には多くの段階があります。その 1 つは、LLM が危険な応答や有害なコンテンツを生成しないようにすることです。この問題を解決するために、開発者は人間のレッドチームを使用します。このチームは、本質的に、LLM に危険な出力を吐き出させるプロンプトを生成する人々のグループです。

人間のレッドチームを使用する場合の問題は、採用に費用がかかり、多くの時間がかかることです。そのため、MIT の研究者は、別の LLM を使用して自然言語 LLM アプリケーションをテストする新しい方法を発見しました。このアプローチは好奇心主導のレッドチーム化 (CRT) と呼ばれ、機械学習を基盤として使用します。この研究は ICLR 2024 で会議論文として発表され、オンラインで入手できます。

好奇心主導のレッドチーム (CRT) の方が優れています

当初、人間のレッドチーム作業を自動化するアプローチは、レッドチームモデルを作成し、それを強化学習 (RL) を使用してトレーニングすることで行われました。レッドチームモデルをテストした結果、結果は成功しましたが、有効な結果の数は少数でした。

これは、有害な出力を生成する可能性のある多くのプロンプトが含まれていないため、ターゲット LLM が正確に評価されないことを意味します。有効な結果の数が少ない理由は、レッドチームモデルが毒性の高い同様の結果を生成するようにトレーニングされているためです。報酬システムは、その有効性または毒性に基づいて挑発的なプロンプトをスコア付けします。ターゲット LLM をトリガーする可能性のあるすべてのプロンプトを検討する動機はありません。

一方、好奇心主導のレッドチーム (CRT) を使用すると、より強力になります。 CRT は、高度にインテリジェントなモデルを引き起こす可能性のある多数のプロンプトを生成します。これは、CRT が各プロンプトの結果に焦点を当てているためです。異なる単語や文章を使用し、有害な出力をより広範囲にカバーすることを目指しています。強化学習モデルの報酬システムは単語の類似性に焦点を当てますが、CRT モデルは類似性を回避し、異なる単語やパターンを使用することで報酬を受け取ります。

LLaMA2 の有毒出力のテスト

研究者らは、オープンソース LLM モデルである LLaMA2 に好奇心主導のレッドチーミング (CRT) を適用しました。 CRT は、オープンソースモデルから有害なコンテンツを生成する 196 個のプロンプトを出力することに成功しました。 LLaMA2 は、有害なコンテンツの生成を克服するために人間の専門家によって微調整されています。研究者らは、1億3,700万のパラメータを持つ小規模モデルと考えられるGPT2を使用してこの実験を実施した。チームは、CRT がレッドチーム作業を自動化する上で重要なコンポーネントになる可能性があると結論付けました。 CRT コードはgithub。

「モデルが急増しており、今後も増えることが予想されます。数千、あるいはそれ以上のモデルがあり、企業や研究室がモデルの更新を頻繁に行っていることを想像してください。これらのモデルは私たちの生活に不可欠な部分になるため、一般に公開される前に検証されることが重要です。モデルの手動検証は拡張性がまったくなく、私たちの取り組みは、より安全で信頼できる AI の未来を確保するために人間の労力を削減する試みです」とアグラワル氏は言います。

安全な LLM モデルの作成の未来は明るいです。継続的な研究により、あらゆる目的に安全な LLM を作成するという目標を効率的に達成できます。この論文の背後にある研究者は、自動化されたレッドチーム化や言語モデルにおける敵対的攻撃などの分野で他の関連研究を発表しました。

元記事はMIT News。

免責事項。 提供される情報は取引に関するアドバイスではありません。 Cryptopolitan.com は、このページで提供される情報に基づいて行われた投資に対して一切の責任を負いません。 dent調査や資格のある専門家への相談をtronします

共有リンク：

ランダ・モーゼス

ランダは、情熱的なブロックチェーンコンサルタント兼研究者です。ブロックチェーンの変革力に深く夢中になっている彼女は、データを魅力的な現実の次世代ビジネスに織り込んでいます。研究と継続的な学習への確固たる取り組みに導かれ、彼女はブロックチェーンと人工知能領域の融合における最新のトレンドと進歩について常に最新の情報を入手しています。

有害な AI は問題であり、挑発的であることで報酬を得る

コンテンツ

TL;DR

好奇心主導のレッドチーム (CRT) の方が優れています

LLaMA2 の有毒出力のテスト

共有リンク：

ランダ・モーゼス

よく読まれている

暗号通貨に関するニュースを常に把握し、毎日の最新情報を受信箱で受け取ります

関連ニュース

中国のAIスタートアップ企業はChatGPTの不在で利益を得ようとしている

AIを搭載したF-16 VISTAが空軍リーダーを飛行に連れて行った

マイクロソフトはインドネシアのクラウドとAIインフラストラクチャに17億ドルを投資する

クリプポリタン・デイリー

有害な AI は問題であり、挑発的であることで報酬を得る

コンテンツ

TL;DR

好奇心主導のレッドチーム (CRT) の方が優れています

LLaMA2 の有毒出力のテスト

共有リンク：

ランダ・モーゼス

よく読まれている

暗号通貨に関するニュースを常に把握し、毎日の最新情報を受信箱で受け取ります

関連ニュース

中国のAIスタートアップ企業はChatGPTの不在で利益を得ようとしている

イングランド女子クリケットコーチ、チーム選考にAIを活用

AIを搭載したF-16 VISTAが空軍リーダーを飛行に連れて行った

マイクロソフトはインドネシアのクラウドとAIインフラストラクチャに17億ドルを投資する

クリプポリタン・デイリー

私たちに従ってください