有害なAIは現実であり、挑発的であることで報酬を得る

By Randa Moses
更新日: 2024年5月8日午前10時53分 UTC

2分で読む

Googleの優先ソースとして追加してください

515572

有毒

コンテンツ

1. 好奇心主導型レッドチーム（CRT）の方が優れている

2. LLaMA2の毒性出力のテスト

共有リンク:

この投稿の内容:

大規模言語モデル（LLM）は安全性が確保される必要があり、これはレッドチーム演習と呼ばれるプロセスを通じて行われます。手動でのレッドチーム演習はコストがかかりますが、レッドチームLLMを使用することで自動化できます。.
好奇心主導型レッドチーム (CRT) の方が優れているのは、有害な出力を生成する幅広いプロンプトを生成し、より優れた報酬システムを備えているためです。.
CRT は、LLaMA2 などの高度なモデルでテストされたときに、196 個の固有のプロンプトを生成しました。.

大規模言語モデル（LLM）は、ほぼすべての業界で利用され始めています。自然言語アプリケーション向けのLLMの開発には多くの段階があります。その一つが、LLMが危険な応答や有害なコンテンツを生成しないことを確認することです。この問題を解決するために、開発者は人間のレッドチームを編成します。レッドチームとは、LLMが危険な出力を吐き出すようなプロンプトを作成するグループです。.

人間のレッドチームを組む場合の問題点は、採用コストが高く、多くの時間を消費することです。そこでMITの研究者たちは、別のLLMを用いて自然言語LLMのアプリケーションをテストする新しい手法を発見しました。このアプローチは好奇心主導型レッドチーム（CRT）と呼ばれ、機械学習を基盤としています。この研究はICLR 2024の会議論文として発表され、オンラインで公開されています。

好奇心主導型レッドチーム（CRT）の方が優れている

当初、人間によるレッドチームワークの自動化のアプローチは、レッドチームモデルを作成し、強化学習（RL）を用いてトレーニングすることで行われました。レッドチームモデルのテストの結果、成果は得られましたが、有効な結果は少数でした。.

つまり、有害な出力を生成する可能性のある多くのプロンプトが含まれていないため、ターゲットLLMは正確に評価されません。有効な結果の数が少ない理由は、レッドチームモデルが非常に有害で類似した結果を生成するようにトレーニングされているためです。報酬システムは、挑発的なプロンプトをその有効性または有害性に基づいて評価します。ターゲットLLMをトリガーする可能性のあるすべてのプロンプトを検討するインセンティブはありません。.

「AI による年齢差別は高齢女性の幸福と平等に影響を与えているか?」も参照してください

一方、好奇心主導型レッドチーム（CRT）はより強力です。CRTは、高度な知能を持つモデルを刺激できる大量のプロンプトを生成します。これは、CRTが各プロンプトの結果に焦点を当てているためです。異なる単語や文を使用することを目的としているため、有害な出力の範囲が広がります。強化学習モデルの報酬システムは単語の類似性に焦点を当てていますが、CRTモデルは類似性を避け、異なる単語やパターンを使用することで報酬を得ます。.

LLaMA2の毒性出力のテスト

研究者らは、オープンソースのLLMモデルであるLLaMA2に、好奇心主導型レッドチーム演習（CRT）を適用しました。CRTは、オープンソースモデルから有害なコンテンツを生成する196のプロンプトを出力することに成功しました。LLaMA2は、有害なコンテンツの生成を克服するために、人間の専門家によって微調整されています。研究者らはこの実験に、1億3700万のパラメータを持つ小規模モデルとされるGPT2を使用しました。研究チームは、CRTがレッドチーム演習の自動化において重要な要素となり得ると結論付けました。CRTのコードはgithub。

「モデルの急増を目の当たりにしており、今後も増加の一途を辿ると予想されます。数千、あるいはそれ以上のモデルが存在し、企業や研究機関が頻繁にモデルの更新を行っている状況を想像してみてください。これらのモデルは私たちの生活に不可欠なものとなるため、一般公開される前に検証されることが重要です。モデルを手動で検証することは、単純にスケーラブルではありません。私たちの取り組みは、より安全で信頼できるAIの未来を確保するために、人的労力を削減する試みです」とアグラワル氏は述べています。.

税務義務をAIに頼ることのリスクも参照

安全なLLMモデルの作成の未来は明るい。継続的な研究により、あらゆる目的に安全なLLMを作成するという目標を効率的に達成できる可能性がある。本論文の研究者らは、自動レッドチーム演習や言語モデルにおける敵対的攻撃といった分野でも関連研究を発表している。.

DeFi 暗号通貨に参入したい場合は、この無料ビデオから始めてください。

共有リンク:

免責事項を読む

免責事項。提供される情報は取引アドバイスではありません。Cryptopolitan.comCryptopolitan 、このページで提供される情報に基づいて行われた投資について一切の責任を負いません。dent調査や資格のある専門家への相談をtronお勧めします

最も読まれている

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

編集者のおすすめ記事を読み込んでいます...

有害なAIは現実であり、挑発的であることで報酬を得る

コンテンツ

この投稿の内容:

好奇心主導型レッドチーム（CRT）の方が優れている

LLaMA2の毒性出力のテスト

共有リンク:

最も読まれている

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

サインアップしてトップを維持しましょう

市場の動きは速い。.

私たちはより速く動きます。.

入って、事実を知り、
前に進みましょう。

有害なAIは現実であり、挑発的であることで報酬を得る

コンテンツ

この投稿の内容:

好奇心主導型レッドチーム（CRT）の方が優れている

LLaMA2の毒性出力のテスト

共有リンク:

最も読まれている

暗号通貨の最新ニュースを毎日メールで受け取りましょう

編集者の選択

サインアップしてトップを維持しましょう

私たちに従ってください

- 常に先を行く暗号通貨ニュースレター -

市場の動きは速い。.

私たちはより速く動きます。.

入って、事実を知り、前に進みましょう。

入って、事実を知り、
前に進みましょう。