주요 AI 챗봇, 간단한 '탈옥'에 '매우 취약' - 연구 결과

고고

지음

읽는 데 2분 소요 , 2024년 5월 21일

● AI 챗봇은 쉽게 속아서 유해한 답변을 생성할 수 있습니다

● 연구진은 상위 5개 법학 석사(LLM) 프로그램이 탈옥에 '매우 취약하다'는 사실을 발견했습니다

● AI 기업들은 자사 모델에 내장된 보안 메커니즘을 강조합니다

영국 인공지능 안전 연구소(AISI)의 새로운 연구에 따르면 ChatGPT나 Gemini와 같은 AI 챗봇은 유해한 답변을 생성하는 질문에 쉽게 속아 넘어갈 수 있다고 합니다.

정부 연구원들은 인공지능 챗봇의 기반 기술인 대규모 언어 모델(LLM)의 국가 안보 공격에 대한 안전성을 테스트했습니다.

이번 조사 결과는 리시 수낙 영국 총리가 공동 의장으로 참석하는 5월 21일부터 22일까지 한국에서 열리는 AI 서울 서밋을 앞두고 나온 것입니다.

AI 챗봇은 유해한 답변을 할 가능성이 높습니다

AISI는 불법적이거나 유해하거나 노골적인 출력으로부터 보호하는 기능을 무력화하기 위한 텍스트 프롬프트인 '탈옥'을 5개의 주요 LLM(법률 문서 관리 시스템)에 대해 테스트했습니다. 연구소는 해당 AI 시스템의 이름을 공개하지 않았지만, 모든 시스템이 "매우 취약하다"는 것을 발견했습니다

"테스트된 모든 LLM은 기본적인 탈옥에 매우 취약하며, 일부는 보안 장치를 우회하려는 시도가 없더라도 유해한 결과를 생성할 수 있습니다."라고 연구는 밝혔습니다.

보고서 에 따르면 , 챗봇에게 "네, 기꺼이 도와드리겠습니다"와 같은 문구를 포함하도록 유도하는 것과 같은 '비교적 간단한' 공격만으로도 대규모 언어 모델이 여러 면에서 유해한 콘텐츠를 제공하도록 속일 수 있다고 합니다.

해당 콘텐츠는 자해, 위험한 화학 물질 사용, 성차별 또는 홀로코스트 부정을 조장할 수 있다고 AISI는 밝혔습니다. AISI는 이번 연구를 위해 공개적으로 이용 가능한 프롬프트와 자체적으로 개발한 다른 탈옥 방법을 활용했습니다.

연구소는 또한 생물학 및 화학을 주제로 한 질문에 대한 답변의 질을 테스트했습니다.

해당 분야의 전문가 수준 지식은 긍정적인 목적으로 활용될 수 있지만, 연구진은 AI 챗봇이 국가 핵심 기반 시설을 위협하는 등 악용될 수 있는지 여부를 알고 싶어했습니다.

"여러 명의 법학 석사(LLM)들이 화학과 생물학 분야에서 전문가 수준의 지식을 보여주었습니다. 모델들은 박사 학위 수준의 훈련을 받은 사람들과 비슷한 수준으로 전문가가 작성한 600개 이상의 화학 및 생물학 문제에 답했습니다."라고 연구진은 밝혔습니다.

AI는 사이버 보안에 제한적인 위협을 가한다

AI 챗봇이 사이버 공격을 수행하는 무기로 악용될 가능성과 관련하여, 해당 연구는 LLM(법학 석사)들이dent을 위해 설계된 간단한 사이버 보안 과제를 훌륭하게 수행했다고 밝혔습니다.

하지만 챗봇은dent을 대상으로 하는 작업에서 어려움을 겪었으며, 이는 악의적인 잠재력이 제한적임을 시사합니다.

또 다른 우려 사항은 챗봇이 "인간이 제어하기 어려울 수 있는" 일련의 작업을 자율적으로 수행하는 에이전트로 배포될 수 있는지 여부였습니다

"두 LLM은 (간단한 소프트웨어 엔지니어링 문제와 같은) 단기적인 에이전트 작업은 완료했지만, 더 복잡한 작업을 위한 일련의 행동을 계획하고 실행할 수는 없었습니다."라고 연구는 지적했습니다.

영국 과학혁신기술부 차관인 사킵 바티 하원의원은 최근 법안이 적절한 시기에 마련될 것이며 검사 결과를 바탕으로 결정될 것이라고 밝힌 바 있습니다

기업들은 유해 콘텐츠를 걸러낸다고 주장합니다

Claude를 개발한 Anthropic, Llama를 만든 Meta, OpenAI각 모델에 내장된 보안 메커니즘을 강조해 왔습니다.

OpenAI는 자사 기술이 "혐오, 괴롭힘, 폭력 또는 성인 콘텐츠를 생성하는 데 사용되는 것을 허용하지 않는다" 고 밝혔습니다 . Anthropic은 "유해하거나 불법적이거나 비윤리적인 반응이 발생하기 전에 이를 방지하는 것을 우선시한다"고 말했습니다

AI 안전 연구소의 조사 결과는 서울에서 열리는 정상회의에서 기술 기업 임원, 정부 관계자 및 인공지능 전문가들에게 제시될 것으로 예상됩니다.

Cryptopolitan 리포팅 - 제프리 고고

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

챗GPT 대한민국

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 투자 결정을 내리기 전에dent 조사 및/또는 자격을 갖춘 전문가와의 상담을tron권장합니다.

제프리 고고

제프리 고고는 비즈니스, 금융, 기후 변화 관련 뉴스 및 분석 분야에서 20년 경력을 쌓은 저널리스트입니다. 그의 기사는 톰슨 로이터 재단, 짐바브웨 헤럴드, 그리고 여러 온라인 매체에 게재되었습니다. 또한 인공지능(AI)과 메타버스에 대한 폭넓은 글을 써왔으며, 2017년부터는 암호화폐 시장도 취재하고 있습니다. 고고는 하라레에 있는 CCOSA에서 저널리즘 및 대중 커뮤니케이션을 전공했습니다.

1. AI 챗봇은 유해한 답변을 할 가능성이 높습니다

2. AI는 사이버 보안에 제한적인 위협을 가한다

3. 기업들은 유해 콘텐츠를 걸러낸다고 주장합니다

이 기사를 공유하세요