환경에서 미국AI국립표준기술원(NIST)은 잠재적인 사이버 보안 취약점을 찾기 위해 AI 수명 주기를 면밀히 관찰하며 경계를 늦추지 않고 있습니다. AI가 확산됨에 따라 이러한 취약점이 발견되고 악용되는 사례가 늘어나고 있으며, NIST는 위험을 효과적으로 완화하기 위한 전략과 전술을 수립하고 있습니다.
적대적 머신 러닝(AML) 전술 이해
적대적 머신러닝(AML) 전술은 머신러닝 시스템의 작동 방식에 대한 통찰력을trac하여 공격자가 악의적인 목적으로 시스템을 조작할 수 있도록 하는 것을 목표로 합니다. 이러한 전술 중 특히 생성적 AI 모델을 표적으로 삼는 즉각적인 주입은 심각한 취약점입니다.
NIST는 프롬프트 인젝션의 두 가지 주요 유형, 즉 직접 및 간접을dent합니다. 직접 프롬프트 인젝션은 사용자가 AI 시스템에서 의도치 않거나 승인되지 않은 동작을 유발하는 텍스트를 입력할 때 발생합니다. 반면, 간접 프롬프트 인젝션은 AI 모델이 응답 생성에 사용하는 데이터를 오염시키거나 저하시키는 것을 포함합니다.
가장 악명 높은 직접 프롬프트 주입 방법 중 하나는 DAN(Do Anything Now)으로, 주로 ChatGPT 공격에 사용됩니다. DAN은 롤플레이 시나리오를 활용하여 검열 필터를 우회하여 사용자가 필터링될 수 있는 응답을 요청할 수 있도록 합니다. 개발자들이 취약점을 패치하기 위한 노력에도 불구하고, DAN은 계속해서 업데이트되어 AI 보안에 지속적인 문제를 야기하고 있습니다.
즉각적인 주입 공격에 대한 방어
즉시 주입 공격을 완전히 근절하는 것은 불가능할 수 있지만, NIST는 위험을 완화하기 위한 몇 가지 방어 전략을 제안합니다. 모델 생성자는 훈련 데이터셋을 신중하게 선별하고 적대적인 프롬프트를 인식하고 거부하도록 모델을 훈련시키는 것이 좋습니다. 또한, 해석 가능한 AI 솔루션을 활용하면 비정상적인 입력을 감지하고 방지하는 데 도움이 될 수 있습니다.
간접 프롬프트 인젝션은 조작된 데이터 소스에 의존하기 때문에 심각한 문제를 야기합니다. NIST는 인간 피드백을 기반으로 한 강화 학습(RLHF)을 통해 모델 미세 조정에 인간이 참여할 것을 권장합니다. 검색된 입력에서 명령어를 필터링하고 AI 중재자를 활용하면 간접 프롬프트 인젝션 공격에 대한 방어력을 더욱 강화할 수 있습니다.
의 의사 결정 프로세스에 대한 통찰력을 제공하여 AI 비정상적인 입력을 감지하는 데 도움을 줍니다. 예측 궤적을 분석함으로써 조직은dent하고 차단할 수 있습니다.
AI 사이버 보안에서 IBM 보안의 역할
사이버 보안 환경이 진화함에 따라 IBM Security는 AI 기반 솔루션을 제공하여 새로운 위협에 대한 방어력을 강화하며 선두를 유지하고 있습니다. IBM Security는 첨단 기술과 전문 지식을 활용하여 기업이 AI 시스템을 효과적으로 보호할 수 있도록 지원합니다.
AI 기술은 발전하고 있으며, 그 취약점을 악용하려는 악의적인 공격자들의 전략 또한 발전하고 있습니다. NIST의 권고 사항을 준수하고 IBM Security와 같은 업계 선도 기업의 혁신적인 솔루션을 활용함으로써 기업은 AI 사이버 보안 위협과 관련된 위험을 완화하고 시스템의 무결성과 보안을 보장할 수 있습니다.

