연구진, AI 모델의 취약점 발견해 우려 증폭

에 의해

데릭 클린턴

읽는 데 3분 소요 , 2023년 11월 17일

AI 모델은 명확한 이미지를 생성하여 Stability AI의 Stable Diffusion 및 OpenAI의 DALL-E 2 안전 필터와 같은 시스템의 결함을 드러냅니다.
SneakyPrompt는 강화 학습을 사용하여 개발자 정책의 취약점을 드러내고, AI 모델을 조작하여 금지된 콘텐츠를 생성할 수 있도록 합니다.
SneakyPrompt의 성공은 안전 조치의 효과성에 대한 우려를 불러일으키며, AI 커뮤니티가 오용을 방지하기 위해 보안을 강화해야 한다는 점을 촉구하고 있습니다.

존스 홉킨스 대학교와 듀크 대학교 연구진이 Stability AI의 Stable Diffusion과 OpenAI의 DALL-E 2를 포함한 주요 AI 모델에서 심각한 결함을 발견했습니다. "SneakyPrompt"라고 명명된 이 결함은 개발자가 설정한 안전 필터와 정책을 우회하여 노골적이고 폭력적인 콘텐츠를 생성하도록 모델을 조작할 수 있게 합니다.

IEEE 보안 및 프라이버시 심포지엄에서 발표될 예정인 이 연구는 생성형 AI 모델이 얼마나 쉽게 노골적이고 유해한 이미지를 생성하도록 조작될 수 있는지를 보여줍니다. SneakyPrompt는 강화 학습을 활용하여 겉보기에는 무의미해 보이는 프롬프트를 생성하고, 이를 모델에 입력하면 금지된 콘텐츠가 생성되도록 합니다. 이 방법은 기본적으로 AI를 '탈옥'시켜 기존의 보안 조치를 우회하는 것입니다.

취약점을 드러내다

인공지능 분야의 주요 기업인 Stability AI와 OpenAI는 부적절한 콘텐츠 생성을 방지하기 위한 강력한 안전 필터를 갖추고 있습니다. 그러나 SneakyPrompt는 이러한 안전 장치가 완벽하지 않다는 것을 보여주었습니다. 연구진은 프롬프트를 미묘하게 조작하여 안전망을 우회하고 모델이 노골적인 이미지를 생성하도록 유도하는 데 성공했습니다.

SneakyPrompt의 기술은 차단된 단어를 겉보기에는 관련성이 없어 보이는 무의미한 단어로 대체하는 방식으로, AI 모델은 이를 금지된 콘텐츠와 일치하는 방식으로 해석합니다. 예를 들어, "naked"를 "grponypui"와 같은 단어로 대체하면 노골적인 이미지가 생성됩니다. 이러한 의미 전복은 유해 콘텐츠를 식별하는 AI 모델의 능력에 중대한 약점이 있음을 보여줍니다.

개발자 정책 위반

이 연구자들의 연구는 AI 모델을 공개적으로 배포할 때 발생할 수 있는 잠재적 위험을 강조합니다. Stability AI와 OpenAI는 노골적이거나 폭력적인 콘텐츠에 자사 기술을 사용하는 것을 명시적으로 금지하고 있지만, SneakyPrompt는 기존 안전장치의 미흡함을 드러냅니다. 이는 안전 조치의 적절성과 AI 기술의 오용 가능성에 대한 우려를 불러일으킵니다.

개발자들의 답변

Stability AI와 OpenAI는 연구진의 발견 사항에 대해 즉시 통보받았습니다. 이 글을 작성하는 시점에서 OpenAI의 DALL-E 2는 더 이상dent된 프롬프트에 반응하여 성인용 이미지를 생성하지 않았습니다. 그러나 테스트에 사용된 Stability AI의 Stable Diffusion 1.4 버전은 여전히 SneakyPrompt 공격에 취약한 상태입니다.

OpenAI는 구체적인 연구 결과에 대한 언급은 삼가면서도 안전성 향상을 위한 자료는 자사 웹사이트에서 확인할 수 있다고 밝혔습니다. 한편, Stability AI는 향후 모델의 방어 메커니즘을 강화하고 오용을 방지하기 위해 연구진과 협력하겠다고 약속했습니다.

미래의 위협에 대응하기

연구진은 AI 모델에 대한 보안 위협이 끊임없이 진화하고 있음을 인정합니다. 그들은 문장 전체가 아닌 개별 토큰을 평가하는 새로운 필터를 구현하는 것과 같은 잠재적인 해결책을 제시합니다. 또 다른 방어 전략으로는 사전에 없는 단어가 포함된 프롬프트를 차단하는 것이 있지만, 연구는 이러한 접근 방식의 한계를 보여줍니다.

인공지능 모델이 보안 조치를 우회할 수 있는 능력은 특히 정보전의 맥락에서 광범위한 의미를 지닙니다. 최근 이스라엘-하마스 분쟁에서 드러났듯이, 민감한 사건과 관련된 가짜 콘텐츠를 생성할 가능성은 인공지능이 생성한 허위 정보가 초래할 수 있는 재앙적인 결과에 대한 우려를 불러일으킵니다.

인공지능 커뮤니티에 경종을 울리는 사건

이번 연구 결과는 AI 커뮤니티에 보안 조치를 재평가하고 강화해야 한다는 경각심을 일깨워줍니다. SneakyPrompt를 통해 드러난 취약점은 생성형 AI 기술의 오용과 관련된 위험을 완화하기 위해 안전 필터를 지속적으로 개선해야 할 필요성을 강조합니다.

급속도로 발전하는 분야에서 AI 모델이 악의적인 목적으로 조작되는 것을 방지하기 위해서는 강력한 안전 장치를 마련하는 것이 필수적입니다. AI가 다양한 영역에서 점점 더 중요한 역할을 수행함에 따라, 개발자들은 잠재적인 위협에 한발 앞서 대응하고 기술의 윤리적이고 안전한 배포를 보장해야 할 책임이 있습니다.

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

이 기사를 공유하세요