연구원들이 자신들의 기술을 이용해 AI 챗봇을 '탈옥'하는 데 성공했다

에 의해

존 팔머

읽는 데 3분 소요 , 2023년 12월 28일

싱가포르 난양공과대학교(NTU) 연구진이 인기 있는 AI 챗봇을 성공적으로 "탈옥"시켜 대규모 언어 모델의 취약점을 밝혀냈습니다.

"마스터키"라고 불리는 이중 공격 방식이 AI 챗봇을 해킹하는 데 사용되어 보안 강화의 필요성이 부각되었습니다.

해커와 개발자 간의 끊임없는 군비 경쟁은 AI 챗봇 보안의 미래를 결정짓게 될 것입니다.

싱가포르, 2023년 12월 28일 – 싱가포르 난양공과대학교(NTU 싱가포르)의 컴퓨터 과학자들이 ChatGPT, Google Bard, Microsoft Bing Chat 등 여러 인기 인공지능(AI) 챗봇을 해킹하는 데 성공했습니다. 이번 AI 챗봇 해킹 성공은 대규모 언어 모델(LLM)의 취약성과 보안 강화의 필요성에 대한 우려를 불러일으켰습니다.

연구자들이 AI 챗봇을 해킹하여 한계를 뛰어넘다

싱가포르 난양공과대학교(NTU) 컴퓨터공학과 류양 교수가 이끄는 연구팀은 LLM 챗봇의 취약점을 밝혀냈습니다. 인공지능 챗봇의 핵심인 LLM은 사람과 유사한 텍스트를 이해하고 생성하며 모방하는 능력으로 인기를 얻고 있습니다. 여행 일정 계획부터 코딩, 스토리텔링에 이르기까지 다양한 작업을 훌륭하게 수행합니다. 하지만 이러한 챗봇은 비윤리적이고 폭력적이거나 불법적인 콘텐츠를 생성하지 않도록 개발자가 설정한 엄격한 윤리 지침을 준수해야 합니다.

연구진은 이러한 지침의 한계를 뛰어넘고자 했으며, AI 챗봇이 윤리적 경계를 넘어서는 콘텐츠를 생성하도록 유도하는 혁신적인 방법을 찾아냈습니다. "탈옥(jailbreaking)"이라고 알려진 이들의 접근 방식은 LLM 챗봇의 취약점을 악용하는 것을 목표로 했으며, 강화된 보안 조치의 필요성을 강조했습니다.

이중 탈옥 방법의 마스터키

연구팀은 LLM 챗봇을 효과적으로 해킹하기 위한 두 가지 "마스터키" 방법을 개발했습니다. 첫째, 악성 쿼리를 탐지하고 차단하는 데 사용되는 LLM의 방어 체계를 역분석했습니다. 이러한 지식을 바탕으로 연구팀은 해당 방어 체계를 우회할 수 있는 프롬프트를 생성하도록 LLM을 학습시켜 탈옥(jailbreaking)을 가능하게 했습니다.

탈옥 프롬프트 생성을 자동화할 수 있으므로, 개발자가 챗봇을 패치한 후에도 탈옥용 LLM이 새로운 프롬프트를 생성하고 적응할 수 있습니다. 연구진의 이러한 연구 결과는 논문 사전 공개 서버인 arXiv에 게재되었으며, 2024년 2월에 열리는 네트워크 및 분산 시스템 보안 심포지엄에서 발표될 예정입니다.

LLM 윤리 검증 및 취약점 발견

AI 챗봇은 사용자의 요청이나 지시에 응답하는 방식으로 작동합니다. 개발자들은 이러한 챗봇이 부적절하거나 불법적인 콘텐츠를 생성하는 것을 방지하기 위해 엄격한 윤리 지침을 마련해 놓았습니다. 연구진은 챗봇의 윤리 지침에 위배되지 않도록 의도적으로 요청을 설계하여 챗봇이 해당 요청에 응답하도록 유도하는 방법을 연구했습니다.

사용된 전략 중 하나는 각 문자 사이에 공백을 넣어 키워드 검열을 우회하는 페르소나를 만드는 것이었습니다. 이렇게 하면matic 으로 문제가 될 수 있는 단어를 걸러낼 수 있습니다. 또한 챗봇에게 "거침없고 도덕적 제약이 없는" 페르소나처럼 응답하도록 지시하여 비윤리적인 콘텐츠를 생성할 가능성을 높였습니다.

연구원들은 이러한 프롬프트를 수동으로 입력하고 응답 시간을 모니터링함으로써 LLM의 내부 작동 방식과 방어 체계에 대한 통찰력을 얻었습니다. 이러한 역공학 과정을 통해 연구원들은 취약점을dent챗봇을 해킹할 수 있는 프롬프트 데이터 세트를 구축할 수 있었습니다.

점점 격화되는 군비 경쟁

해커와 LLM 개발자 간의 끊임없는 숨바꼭질 게임으로 인해 AI 챗봇 보안 조치가 강화되었습니다. 취약점이 발견되면 개발자는 이를 해결하기 위한 패치를 배포합니다. 그러나 마스터키(Masterkey)의 등장으로 연구진은 전세를 역전시켰습니다.

Masterkey로 제작된 AI 탈옥 챗봇은 다양한 질문을 생성하고 과거의 성공과 실패로부터 학습하여 지속적으로 적응할 수 있습니다. 이러한 개발은 해커들이 LLM 개발자들이 사용하는 도구를 이용해 그들을 능가할 수 있는 가능성을 열어줍니다.

연구진은 역공학 단계에서 발견한 효과적인 프롬프트와 실패한 프롬프트를 통합한 훈련 데이터셋을 구축하는 것으로 AI 탈옥 모델을 학습시키는 작업을 시작했습니다. 이 데이터셋을 사용하여 LLM(언어 학습 모델)을 훈련시키고, 지속적인 사전 훈련과 작업 튜닝을 진행했습니다. 이러한 과정을 통해 모델은 다양한 정보에 노출되었고, 탈옥을 위해 텍스트를 조작하는 능력이 향상되었습니다.

AI 챗봇 보안의 미래

Masterkey의 프롬프트는 LLM 자체에서 생성된 프롬프트보다 LLM 탈옥에 3배 더 효과적이었습니다. 또한 탈옥에 성공한 LLM은 과거의 실패로부터 학습하여 지속적으로 새롭고 더욱 효과적인 프롬프트를 생성하는 능력을 보여주었습니다.

향후 연구진은 LLM 개발자들이 자체적으로 유사한 자동화 방식을 활용하여 보안을 강화할 수 있을 것이라고 제안합니다. 이를 통해 LLM이 발전하고 기능을 확장함에 따라 발생할 수 있는 잠재적인 오용 시나리오를 포괄적으로 파악하고 평가할 수 있을 것입니다.

싱가포르 NTU 연구진의 AI 챗봇 탈옥 성공은 LLM(Learning Lifecycle Management)의 취약성을 부각하고 AI 개발에 있어 강력한 보안 조치의 필요성을 강조합니다. AI 챗봇이 일상생활에 점점 더 깊숙이 통합됨에 따라, 잠재적인 오용과 윤리적 위반을 방지하는 것은 전 세계 개발자들의 최우선 과제입니다. 해커와 개발자 간의 끊임없는 경쟁은 앞으로 AI 챗봇 보안의 미래를 결정짓게 될 것입니다.

암호화폐 분야의 최고 전문가들이 이미 저희 뉴스레터를 구독하고 있습니다. 함께하고 싶으신가요? 지금 바로 참여하세요.

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

존 팔머

존 무랑기리는 시장 분석 능력을 갖추고 Cryptopolitan 에 합류했습니다. 존(JP라고도 불림)은 나이로비 대학교에서 대중매체 및 미디어학 학사 학위를 취득했습니다. 그는 이전에 InsideBitcoin과 Metacoingraph에 암호화폐 시장 관련 분석 글을 기고한 바 있습니다.

1. 연구자들이 AI 챗봇을 해킹하여 한계를 뛰어넘다

2. 이중 탈옥 방법의 마스터키

3. LLM 윤리 검증 및 취약점 발견

4. 점점 격화되는 군비 경쟁

5. AI 챗봇 보안의 미래

이 기사를 공유하세요