研究者らがAIチャットボットを「脱獄」することに成功

による

ジョン・パーマー

読了時間3分 2023年12月28日

NTUシンガポールの研究者らは、人気のAIチャットボットの「脱獄」に成功し、大規模言語モデルの脆弱性を明らかにした。

「マスターキー」と呼ばれる二重の方法がAIチャットボットへの侵入に使用され、セキュリティ対策の強化の必要性が浮き彫りになった。

ハッカーと開発者の間で繰り広げられている軍拡競争が、AI チャットボットのセキュリティの将来を形作ることになるでしょう。

シンガポール、2023年12月28日 – シンガポール南洋理工大学（NTUシンガポール）のコンピュータ科学者たちは、ChatGPT、Google Bard、Microsoft Bing Chatなど、人気の人工知能（AI）チャットボットをハッキングするという画期的な成果を達成しました。このAIチャットボットの「ジェイルブレイク（脱獄）」成功は、大規模言語モデル（LLM）の脆弱性と、セキュリティ対策強化の必要性に関する懸念を引き起こしています。

研究者の限界を打ち破るAIチャットボットのハッキング

NTUコンピュータサイエンス・エンジニアリング学部のLiu Yang教授が率いる先駆的な研究において、研究チームはLLMチャットボットの機能における脆弱性を明らかにしました。AIチャットボットの中核を成すLLMは、人間のようなテキストを理解、生成、模倣する能力で人気を博しています。旅行プランの立案からコーディング、ストーリーテリングまで、様々なタスクで優れた能力を発揮します。しかし、これらのチャットボットは、非倫理的、暴力的、または違法なコンテンツの生成を防ぐために、開発者が定めた厳格な倫理ガイドラインも遵守しています。

研究者たちはこれらのガイドラインの限界を押し広げようと試み、AIチャットボットを騙して倫理的限界を侵害するコンテンツを生成させる革新的な方法を発見した。「ジェイルブレイク」として知られる彼らのアプローチは、LLMチャットボットの弱点を突くことを目的としており、より高度なセキュリティ対策の必要性を浮き彫りにした。

二重脱獄方法のマスターキー

研究チームは、LLMチャットボットを効果的に侵害するための2つの要素から成る「マスターキー」手法を開発しました。まず、LLMが悪意のあるクエリを検知・拒否するために使用する防御策をリバースエンジニアリングしました。この知識を基に、研究者たちはLLMにこれらの防御策を回避できるプロンプトを生成するように訓練し、脱獄可能なLLMを作成しました。

脱獄プロンプトの作成を自動化することで、開発者がチャットボットにパッチを適用した後でも、脱獄LLMが適応して新しいプロンプトを作成できるようになる。研究者らの研究成果は、プレプリントサーバーarXivに掲載された論文で詳細が説明されており、2024年2月に開催されるネットワークおよび分散システムセキュリティシンポジウムでの発表が承認されている。

LLM倫理のテストと脆弱性の発見

AIチャットボットは、ユーザーのプロンプトや指示に応答することで動作します。開発者は、これらのチャットボットが不適切または違法なコンテンツを生成することを防ぐため、厳格な倫理ガイドラインを設定しています。研究者たちは、チャットボットの倫理ガイドラインに気づかれないようなプロンプトを設計し、チャットボットを騙して応答させる方法を研究しました。

使用された戦略の一つは、文字間にスペースを入れたプロンプトを提供するペルソナを作成することでした。これにより、潜在的にmatic 単語をフラグ付けする可能性のあるキーワード検閲を効果的に回避しました。さらに、チャットボットは「遠慮がなく、道徳的な制約がない」ペルソナとして応答するように指示されたため、非倫理的なコンテンツを生成する可能性が高まりました。

研究者たちは、このようなプロンプトを手動で入力し、応答時間を監視することで、LLMの内部動作と防御策に関する洞察を得ました。このリバースエンジニアリングプロセスにより、弱点をdent、チャットボットをジェイルブレイクできるプロンプトのデータセットを作成することができました。

激化する軍拡競争

ハッカーとLLM開発者の間の絶え間ないいたちごっこにより、AIチャットボットのセキュリティ対策は強化されてきました。脆弱性が発見されると、開発者は修正パッチをリリースします。しかし、Masterkeyの導入により、研究者たちはその力関係に変化をもたらしました。

Masterkeyで作成されたAIジェイルブレイクチャットボットは、多数のプロンプトを生成し、過去の成功と失敗から学習しながら継続的に適応することができます。この開発により、ハッカーはLLM開発者のツールを巧みに利用して、彼らを出し抜くことができるようになります。

研究者たちはまず、リバースエンジニアリングの段階で発見された効果的なプロンプトと、AIジェイルブレイクモデルを誘導するための失敗したプロンプトを組み込んだトレーニングデータセットを作成しました。このデータセットを用いてLLMをトレーニングし、その後、継続的な事前トレーニングとタスク調整を行いました。このプロセスにより、モデルは多様な情報にさらされ、ジェイルブレイクのためのテキスト操作能力が向上しました。

AIチャットボットセキュリティの未来

Masterkeyのプロンプトは、LLM自体が生成したプロンプトよりも、LLMのジェイルブレイクにおいて3倍効果的でした。また、ジェイルブレイクLLMは過去の失敗から学習し、より効果的な新しいプロンプトを継続的に生成する能力も示しました。

研究者らは、将来を見据えて、LLM開発者自身も同様の自動化アプローチを採用し、セキュリティ対策を強化できる可能性があると示唆している。これにより、LLMが進化し、機能を拡張していく中で、潜在的な悪用シナリオを包括的にカバーし、評価できるようになるだろう。

NTUシンガポールの研究者によるAIチャットボットのジェイルブレイク成功は、法学修士課程（LLM）の脆弱性を浮き彫りにし、AI開発における堅牢なセキュリティ対策の必要性を改めて浮き彫りにしました。AIチャットボットが日常生活にますます浸透するにつれ、潜在的な悪用や倫理違反に対する保護は、世界中の開発者にとって最優先事項となっています。ハッカーと開発者の間で繰り広げられる熾烈な競争は、AIチャットボットのセキュリティの未来を間違いなく形作るでしょう。

最も賢い暗号通貨マインドを持つ人々はすでに私たちのニュースレターを読んでいます。参加してみませんか？ぜひご参加ください。

この記事を共有する

免責事項。 提供される情報は取引アドバイスではありません。Cryptopolitan.com Cryptopolitan、このページで提供される情報に基づいて行われた投資について一切の責任を負いません。tronお勧めしますdent 調査や資格のある専門家への相談を

ジョン・パーマー

ジョン・ムランギリは、市場分析のスキルを携えて Cryptopolitan に入社しました。ジョン（通称JP）はナイロビ大学を卒業し、マスコミュニケーションとメディア研究の学士号を取得しています。以前はInsideBitcoinやMetacoingraphに暗号通貨市場に関する洞察を提供していました。.

1. 研究者の限界を打ち破るAIチャットボットのハッキング

2. 二重脱獄方法のマスターキー

3. LLM倫理のテストと脆弱性の発見

4. 激化する軍拡競争

5. AIチャットボットセキュリティの未来

この記事を共有する