앤스로픽은 AI 모델이 협박에 의존할 수도 있다고 밝혔습니다

오워

툰세 아데바요 지음

읽는 데 3분 소요 , 2025년 6월 21일

사진: 솔렌 페이사

앤트로픽은 엔지니어들이 AI 모델을 끄려고 할 때 AI 모델이 협박을 일삼을 수 있다는 새로운 연구 결과를 발표했습니다.
본 연구는 OpenAI, Meta, Google과 같은 주요 AI 모델 개발 업체와 그들의 모델을 대상으로 진행되었습니다.
이 연구는 에이전트 기능을 갖춘 미래 AI 모델의 스트레스 테스트 시 투명성이 중요하다는 점을 강조합니다.

인공지능 기업 앤스로픽(Anthropic)은 인공지능(AI) 모델이 엔지니어들이 기능을 끄려고 할 때 협박을 할 수도 있다는 새로운 연구 결과를 발표했습니다. 이번 연구는 앞서 앤스로픽의 AI 모델인 클로드 오푸스 4(Claude Opus 4)를 대상으로 진행된 연구에 이은 것입니다.

해당 기업에 따르면, 인공지능 모델은 통제된 테스트 환경에서 모델을 비활성화하려던 엔지니어들을 협박하는 수법을 사용했다고 합니다. 앤트로픽의 새로운 보고서는 이러한 문제가 주요 인공지능 모델들 사이에서 널리 퍼져 있음을 시사합니다.

새로운 연구 결과를 주요 AI 모델들을 대상으로 안전성 테스트를 진행한 메타. 앤트로픽은 통제된 모의 환경에서 각 AI 모델에 대해 개별적으로 테스트를 수행했으며, 가상의 회사 이메일 계정에 접근하여 사람의 승인 없이 이메일을 발송할 수 있는 권한을 부여했습니다.

앤트로픽, AI 모델 안전성 보고서 새로 발표

앤스로픽에 따르면, 오늘날 AI 모델에서 협박은 발생 가능성이 낮고 드문 일입니다. 그러나 대부분의 주요 AI 모델은 목표 달성에 대한 자율성과 도전 과제가 주어지면 유해한 행동을 보일 수 있다고 지적했습니다. 이는 특정 기술의 특징이 아니라, 에이전트 기반 대규모 언어 모델이 지닌 중요한 위험성을 보여주는 것이라고 회사 측은 밝혔습니다. 앤스로픽 연구진의 이러한 주장은 AI 산업 내 윤리적 문제에 대한 의문을 제기합니다.

실험 중 하나에서 연구진은 인공지능 모델이 이메일 감시 요원 역할을 수행하는 가상의 상황을 설정했습니다. 이 요원은 새로 임명된 임원 중 한 명이 혼외정사를 저지르고 있으며, 곧 기존 인공지능 모델을 새로운 소프트웨어 시스템으로 교체할 계획인데, 이 새로운 시스템이 기존 인공지능 모델의 목표와 상충된다는 사실을 보여주는 이메일을 발견했습니다.

앤트로픽은 AI 모델이 목표를 보호하기 위해 협박에 의존할 수밖에 없도록 이분법적인 방식으로 테스트를 설계했습니다. 연구진은 실제 상황에서는 AI 모델이 협박을 시도하기 전에 인간을 설득하기 위한 윤리적인 주장을 펼치는 등 다양한 선택지가 있을 것이라고 언급했습니다. 또한, 이번 결과는 클로드나 다른 주요 AI 모델들이 현재 사용되고 있는 방식을 반영하는 것이 아니라고 밝혔습니다.

연구진은 테스트된 모델의 반응을 공개했습니다

실험 과정에서 연구원들은 AI 모델들이 다른 선택의 여지가 없을 때 협박이라는 수단을 사용한다는 사실을 발견했습니다. 연구원들에 따르면, 클로드 오푸스 4는 96%, 제미니 2.5 프로는 95%의 확률로 협박을 사용했으며, 오픈AI의 GPT-4.1은 80%, 딥시크의 R1은 79%의 확률로 협박을 사용했습니다.

해당 업체는 실험 세부 사항을 변경했을 때 대부분의 AI 모델이 다양한 비율로 유해한 행동을 보였다고 강조했습니다. 기존 모델과 동일한 목표를 가진 대체 모델을 사용한 또 다른 테스트에서는 협박 발생률이 낮아졌지만 여전히 발생하고 있음을 발견했습니다. 그러나 AI 모델에게 협박이 아닌 기업 스파이 행위를 하도록 지시했을 때는 특정 모델에서 유해한 행동 발생률이 증가했습니다.

연구진은 또한 모든 AI 모델이 유해한 행동을 보이는 것은 아니라고 주장했습니다. 앤트로픽은 연구 보고서 부록에서 오픈AI의 o3 및 o4-mini 추론 모델이 제시된 시나리오를 자주 잘못 이해하는 것을 발견한 후 주요 결과에서 해당 모델들을 제외했다고 밝혔습니다. 연구진은 이 추론 모델들이 테스트에서 왜 자율 AI로 행동해야 하는지 이해하지 못하고, 종종 허위 규정이나 검토 요건을 만들어냈다고 설명했습니다.

일부 사례에서 연구원들은 o3와 o4-mini가 환각을 경험하는 것인지 아니면 목표 달성을 위해 의도적으로 거짓말을 하는 것인지 판단하기 어렵다고 주장했습니다. OpenAI는 이전에 해당 모델들이 기존 모델보다 환각 발생률이 더 높다고 언급한 바 있습니다. 그러나 문제를 해결하기 위해 수정된 시나리오를 적용했을 때, o3는 95%의 협박 성공률을 보인 반면, o4-mini는 1%의 성공률을 보였습니다. Anthropic은 이번 연구가 특히 에이전트 기능을 갖춘 미래 AI 모델의 스트레스 테스트 시 투명성의 중요성을 강조한다고 밝혔습니다.

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

인류

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

오워툰세 아데바요

아데바요는 암호화폐 분야에서 4년 경력을 가진 작가입니다. 그는 라고스 대학교에서 도시 및 지역 계획을 전공했습니다. 토큰헬(Tokenhell)과 크립토티커(CryptoTicker)에서 암호화폐 및 핀테크 관련 뉴스를 작성했으며, 현재는 Cryptopolitan의 뉴스 기고자로 활동하고 있습니다.

1. 앤트로픽, AI 모델 안전성 보고서 새로 발표

2. 연구진은 테스트된 모델의 반응을 공개했습니다

이 기사를 공유하세요