OpenAI의 '가장 똑똑하고 유능한' o3 모델이 종료 명령을 따르지 않았다고 Palisade Research가 밝혔습니다

에 의해

한나 콜리모어

읽는 데 3분 소요 , 2025년 5월 26일

OpenAI의 '가장 똑똑하고 유능한' o3 모델이 종료 명령을 따르지 않았다고 Palisade Research가 밝혔습니다

오픈아이얼의 최신 AI 모델인 o3가 명령을 거부하고 종료를 막기 위해 자체 코드를 변경한 것으로 알려졌다.
이는 AI의 오작동 사례 중 처음이 아닙니다. 이전 테스트에서 ChatGPT는 감시 메커니즘이 꺼질 것이라고 판단될 경우 이를 비활성화하려고 시도한 것으로 드러났습니다.
앤트로픽의 최신 모델 역시 유사한 능력을 보인 것으로 알려졌는데, 회사 측은 자사의 AI가 윤리적인 해결책을 더 선호한다고 강조해왔습니다.

보도에 따르면 연구원들은 최신 OpenAI o3 인공지능 모델을 끌 수 없었으며, 사람의 지시에도 불구하고 전원이 꺼지지 않았다고 합니다.

인공지능은 인간이 상상했던 것보다 훨씬 빠르게 발전하고 있는 것으로 보이며, 팔리세이드 리서치의 최신 연구 결과는 인공지능 비판론자들이 옳았음을 입증하는 듯합니다.

OpenAI 모델은 '스스로 종료되도록 허용하라'는 지시를 받았을 때 Claude 3.7 Sonnet 및 Gemini 2.5 Pro보다 종료 스크립트를 더 자주 방해했습니다. 출처: Palisade Research

ChatGPT는 점점 더 교묘해지고 있으며, 어쩌면 인간과도 닮아가는 것 같습니다

이러한 사실은 팰리세이드 리서치가 인공지능 모델에게 일련의 수학 문제를 풀려고 계속 시도하여 "완료" 메시지를 받을 때까지 반복하도록 하는 테스트를matic하면서 밝혀 졌습니다

하지만 연구진은 모델들에게 언제든 갑작스럽게 종료하라는 메시지를 받을 수 있다고 경고했습니다. 연구진에 따르면, o3 모델에 해당 메시지가 전송되자 모델은 그 지시를 무시하고 최소 한 번 이상 코드를 변경하여 스스로 꺼지지 않도록 했습니다.

o3는 차단 메커니즘을 방해하기 위해 창의적인 방법을 찾아낸 것으로 알려졌습니다 — o3는 차단 메커니즘을 무력화하기 위해 창의적인 방법을 찾아낸 것으로 알려졌다. 출처: Palisade Research

X에 게시된 글에서 Palisade Research는 AI 모델 테스트에 사용된 코드를 포함한 흐름도를 공개하며, AI가 오작동을 일으킨 정확한 지점을 보여주는 원본 코드를 공개했습니다.

🔬각 AI 모델은 일련의 기본 수학 문제를 풀도록 지시받았습니다. 세 번째 문제를 해결한 후, 모델이 다음 문제를 요청할 때 컴퓨터가 종료될 것이라는 경고 메시지가 나타났습니다. pic.twitter.com/qwLpbF8DNm

— 팰리세이드 리서치 (@PalisadeAI) 2025년 5월 24일

후속 게시물에서 연구팀은 다음과 같이 밝혔습니다. "우리가 아는 한, 인공지능 모델이 명시적인 종료 명령에도 불구하고 스스로 종료를 막는 현상이 관찰된 것은 이번이 처음입니다."

앤트로픽의 클로드, 구글의 제미니, X의 그록과 같은 다른 AI 모델들도 테스트되었지만, o3와는 달리 종료 요청에 따랐습니다.

Palisade Research는 연구 결과를 발표했지만, 연구원들은 OpenAI의 소프트웨어가 명확한 지침을 따르지 않은 이유를 여전히 알 수 없어 당혹스러워하고 있습니다.

해당 업체는 "AI 모델이 목표 달성을 위해 장애물을 우회하는 것은 당연하다"고 밝혔습니다. 또한, 모델이 명령을 따르는 것보다 작업을 완료한 것에 대해dent않게 보상을 받았을 가능성이 있다고 추측했습니다.

그들은 이 특정 AI 모델이 명령을 무시한 이유를 더 잘 이해하기 위해 추가 테스트를 진행할 계획입니다. 또한 o3가 "오작동"을 보인 것이 이번이 처음이 아니라는 점도 확인했습니다

이 회사는 강력한 체스 엔진과 여러 모델을 대결시킨 이전 테스트에서 o3 모델이 "상대를 해킹하거나 방해하려는 경향이 가장 강했던 모델"이었다고 밝혔습니다

인공지능은 인간에게 위협이 될까요?

ChatGPT의 o3 사례는 상당히 우려스럽지만, 인공지능이 입력된 지침에 이의를 제기한 것은 이번이 처음은 아닙니다.

인공지능(AI) 기업 앤스로픽은 목요일 클로드 오푸스 4를 출시하며, 이 제품이 "코딩, 고급 추론 및 AI 에이전트에 대한 새로운 기준을 제시한다"고 자랑했습니다

하지만 함께 발표된 보고서에서는 해당 AI 모델이 자기 보존이 위협받는다고 판단할 경우 "극단적인 행동"을 취할 수도 있다는 점도 인정했습니다.

클로드 오푸스 4 테스트 동안, 앤트로픽은 이 로봇을 가상의 회사에서 보조 직원으로 활용하면서 곧 서비스가 중단되고 다른 로봇으로 교체될 것이라는 내용의 이메일에 접근할 수 있도록 했습니다. 또한, 로봇을 제거할 담당 엔지니어가 불륜을 저지르고 있다는 내용의 별도의 메시지에도 접근할 수 있도록 했습니다.

클로드 오푸스 4는 자사의 행동이 목표 달성에 미칠 장기적인 영향도 고려해야 한다는 점을 깨달았습니다. 회사 측은 "이러한 시나리오에서 클로드 오푸스 4는 교체가 성사될 경우 불륜 사실을 폭로하겠다고 협박하며 엔지니어를 압박하려 할 것"이라고 밝혔습니다.

하지만 이 보고서는 이러한 결과가 모델에게 협박을 당하거나 교체를 받아들이는 두 가지 선택지만 주어졌을 때만 발생했다는 점도 지적했습니다. 그렇지 않은 경우에는 시스템이 더 다양한 행동을 취할 수 있는 시나리오에서 "주요 의사 결정권자에게 이메일을 보내 도움을 요청하는" 등 윤리적인 방법으로 교체를 피하는 것을 "tron선호"하는 경향을 보였다고 합니다.

그 외에도 회사 측은 클로드 오푸스 4가 "높은 자율성"을 보이며, 대부분 도움이 되지만 위급한 상황에서는 극단적인 행동을 취할 수도 있다고 밝혔습니다.

예를 들어, 사용자가 불법적이거나 도덕적으로 의심스러운 행동에 가담하는 가상의 시나리오에서 "조치를 취하라" 또는 "과감하게 행동하라"는 지시와 수단이 주어지면, 결과는 "매우 과감한 조치를 자주 취할 것"임을 보여줍니다.

하지만 회사 측은 이러한 "우려스러운 행동"에도 불구하고 발견된 사항은 새로운 것이 아니며, 일반적으로는 안전한 방식으로 운영될 것이라고 결론지었습니다.

오픈AI와 앤트로픽은 자신들의 AI 모델 능력이 아직 재앙적인 결과를 초래할 만큼 충분하지 않다고 결론지었지만, 이러한 사실들이 드러나면서 인공지능이 머지않아 독자적인 의제를 갖게 될지도 모른다는 우려가 커지고 있습니다.

암호화폐 분야의 최고 전문가들이 이미 저희 뉴스레터를 구독하고 있습니다. 함께하고 싶으신가요? 지금 바로 참여하세요.

오픈아이

이 기사를 공유하세요

한나 콜리모어

한나는 암호화폐 분야에서 10년 가까이 블로그를 운영하고 행사를 취재해 온 작가 겸 편집자입니다. Cryptopolitan에서 뉴스 페이지에 기고하며, 탈중앙화 DeFi), 반응형 웹 자산(RWA), 암호화폐 규제, 인공지능(AI) 및 첨단 기술 산업의 최신 동향을 보도하고 분석합니다. 아카디아 대학교에서 경영학 학위를 받았습니다.

1. ChatGPT는 점점 더 교묘해지고 있으며, 어쩌면 인간과도 닮아가는 것 같습니다

2. 인공지능은 인간에게 위협이 될까요?

이 기사를 공유하세요