急速に進化する人工知能(AI)と機械学習(ML)の世界において、米国国立標準技術研究所(NIST)は、AIのライフサイクルを綿密に監視し、潜在的なサイバーセキュリティの脆弱性を常に監視しています。AIの普及に伴い、こうした脆弱性の発見と悪用が増加しているため、NISTはリスクを効果的に軽減するための戦術と戦略を策定しています。
敵対的機械学習(AML)戦術を理解する
敵対的機械学習(AML)戦術は、機械学習システムの挙動に関する知見をtracし、攻撃者が悪意ある目的でシステムを操作することを目的としています。プロンプトインジェクションは、これらの戦術の中でも特に生成AIモデルを標的とする場合に重大な脆弱性となります。.
NISTは、プロンプトインジェクションをdent2種類、直接型と間接型に分類しています。直接型プロンプトインジェクションは、ユーザーがAIシステムで意図しない、あるいは許可されていないアクションを引き起こすようなテキストを入力した場合発生します。一方、間接型プロンプトインジェクションは、AIモデルが応答を生成するために利用するデータを改ざんまたは劣化させることを伴います。.
最も悪名高い直接プロンプトインジェクション手法の一つはDAN(Do Anything Now)で、主にChatGPTに対して使用されています。DANはロールプレイシナリオを用いてモデレーションフィルターを回避し、本来であればフィルターで除外されるはずの回答をユーザーに求めることを可能にします。開発者による脆弱性修正の努力にもかかわらず、DANの反復的なバージョンは依然として存在し、AIセキュリティにとって継続的な課題となっています。.
即時インジェクション攻撃に対する防御
プロンプトインジェクション攻撃を完全に排除することは不可能かもしれませんが、NISTはリスクを軽減するためのいくつかの防御戦略を提案しています。モデル作成者は、トレーニングデータセットを慎重にキュレートし、敵対的なプロンプトを認識して拒否するようにモデルをトレーニングすることが推奨されます。さらに、解釈可能なAIソリューションを導入することで、異常な入力を検出し、防止することができます。.
間接プロンプトインジェクションは、操作されたデータソースに依存するため、非常に困難な課題となります。NISTは、人間によるフィードバックからの強化学習(RLHF)を通じて、モデルの微調整に人間が関与することを推奨しています。取得した入力から指示をフィルタリングし、AIモデレーターを活用することで、間接プロンプトインジェクション攻撃に対する防御をさらに強化できます。.
の意思決定プロセスに関する洞察を提供し AI ができますdent。
AIサイバーセキュリティにおけるIBMセキュリティの役割
サイバーセキュリティを取り巻く環境が進化する中、IBM Securityは常に最前線に立ち、新たな脅威に対する防御を強化するAI主導のソリューションを提供しています。IBM Securityは、高度なテクノロジーと人間の専門知識を駆使し、組織がAIシステムを効果的に保護できるよう支援します。.
AI技術は進化しており、その脆弱性を悪用しようとする悪意のある攻撃者が用いる戦術も進化しています。NISTの推奨事項を遵守し、IBM Securityのような業界リーダーが提供する革新的なソリューションを活用することで、組織はAIサイバーセキュリティの脅威に関連するリスクを軽減し、システムの整合性とセキュリティを確保できます。.

