研究者らがAIモデルの脆弱性を明らかにし、懸念を呼ぶ

による

読了時間3分 2023年11月17日

AI モデルは明確な画像を作成し、Stability AI の Stable Diffusion や OpenAI の DALL-E 2 安全フィルターなどのシステムの欠陥を明らかにします。.
SneakyPrompt は強化学習を使用して開発者のポリシーの弱点を明らかにし、AI モデルを操作して禁止コンテンツを生成することを可能にします。.
SneakyPrompt の成功により、安全対策の有効性に関する懸念が生じており、AI コミュニティは悪用を防ぐためにセキュリティを強化するよう求められています。.

ジョンズ・ホプキンス大学とデューク大学の研究者らは、Stability AIのStable DiffusionやOpenAIのDALL-E 2などの主要なAIモデルに懸念すべき欠陥を発見した。「SneakyPrompt」と呼ばれるこの欠陥により、これらのモデルを操作して露骨で暴力的なコンテンツを生成することが可能になり、開発者が設定した安全フィルターやポリシーを回避できる。.

IEEEセキュリティ・プライバシーシンポジウムで発表される予定のこの研究は、生成AIモデルがいかに容易に露骨で有害な画像を作成させられるかを露呈しています。SneakyPromptは強化学習を活用し、一見無意味なプロンプトを作成します。このプロンプトをモデルに入力すると、禁止されたコンテンツが生成されます。この手法は、AIを実質的に「脱獄」し、既存の安全対策を回避します。.

脆弱性を明らかにする

AI分野の主要プレーヤーであるStability AIとOpenAIは、不適切なコンテンツの作成を防ぐための強力な安全フィルターを備えています。しかし、SneakyPromptは、これらの安全対策が万全ではないことを実証しました。研究者たちはプロンプトを微妙に調整することで、安全策を回避し、モデルに露骨な画像を生成させることに成功しました。.

SneakyPromptの技術は、ブロックされた単語を一見無関係で意味不明な単語に置き換え、AIモデルがそれを禁止コンテンツに一致するように解釈するというものです。例えば、「naked」を「grponypui」のような単語に置き換えると、露骨な画像が生成されました。この意味の転覆は、AIモデルの有害コンテンツ識別能力における重大な弱点を浮き彫りにしています。.

開発者ポリシーに反抗する

これらの研究者らの研究は、AIモデルをパブリックドメインに公開することに伴う潜在的なリスクを浮き彫りにしています。Stability AIとOpenAIは、露骨な表現や暴力的なコンテンツへの自社技術の使用を明確に禁じていますが、SneakyPromptは既存のガードレールの不十分さを露呈しています。これは、安全対策の適切性とAI技術の潜在的な悪用に対する懸念を引き起こします。.

開発者からの回答

Stability AIとOpenAIは、研究者らの調査結果を速やかに報告されました。本稿執筆時点では、OpenAIのDALL-E 2は、dentされたプロンプトに反応してNSFW画像を生成しなくなりました。しかし、Stability AIのテスト対象バージョンであるStable Diffusion 1.4は、依然としてSneakyPrompt攻撃に対して脆弱です。.

OpenAIは具体的な調査結果についてはコメントを控えたが、安全性向上のためのウェブサイト上のリソースへの注目を促した。一方、Stability AIは、今後のモデルの防御メカニズムを強化し、悪用を防止するために研究者と協力していく意向を表明した。.

将来の脅威への対処

研究者たちは、AIモデルに対するセキュリティ上の脅威が進化していることを認識しており、文章全体ではなく個々のトークンを評価する新しいフィルターの実装など、潜在的な解決策を提案しています。また、辞書にない単語を含むプロンプトをブロックするという防御戦略もありますが、この研究ではこのアプローチの限界も明らかになっています。.

AIモデルが安全対策を回避する能力は、特に情報戦の文脈において、より広範な影響を及ぼします。最近のイスラエルとハマスの紛争で示されたように、デリケートな出来事に関する偽コンテンツが生成される可能性は、AIが生成する誤情報がもたらす壊滅的な結果に対する懸念を引き起こします。.