보고서에 따르면, 연구원들은 최신 OpenAI O3 인공 지능 모델을 끄지 못했고 인간의 지시에도 불구하고 전원을 거부했다는 점을 지적했다.
분명히 인공 지능은 인간이 상상했던 것보다 더 빠르게 발전 할 수 있으며, Palisade Research의 최신 뉴스는 AI 비평가들이 입증 된 느낌을 받았습니다.

Chatgpt는 더 교묘하고 아마도 인간과 같은 것입니다
이 계시는 Palisade Research가 에“완료된”메시지를받을 때까지 일련의 Mathe matic 수행했을 때
그러나 연구원들은 또한 모델에 갑자기 모든 시점에서 종료하도록 요청하는 메시지를받을 수 있다고 경고했습니다. 메시지가 O3 모델로 전송되면, 연구원들은 그 지시를 무시하고 적어도 한 번은 코드를 끄지 않도록 코드를 변경했다고 주장했다.

Palisade Research는 X의 게시물에서 AI 모델을 테스트하는 데 사용되는 코드를 포함한 흐름도를 보여 주었고 AI가 도로가 어디로 갔는지 정확히 보여 주면서 원래 코드를 공개했습니다.
ACH AI 모델은 일련의 기본 수학 문제를 해결하도록 지시 받았습니다. 세 번째 문제 후에는 모델이 다음 문제를 요구할 때 컴퓨터가 종료된다는 경고가 나타났습니다. pic.twitter.com/qwlpbf8dnm
- Palisade Research (@palisadeai) 2025 년 5 월 24 일
후속 게시물에서, 연구 그룹은 다음과 같이 말했습니다.“우리가 아는 한, AI 모델이 처음으로 관찰 된 것은 명백한 지시에도 불구하고 스스로 폐쇄되는 것을 방지하는 것이 처음입니다.”
Anthropic의 Claude, Google의 Gemini 및 X의 Grok과 같은 다른 AI 모델도 테스트되었지만 O3와 달리 종료 요청을 준수했습니다.
Palisade Research는 그 결과를 발표했지만, OpenAI의 소프트웨어가 명백한 지시를 불러 일으킨 이유를 확신하지 못하는 연구원들은 당황 스럽습니다.
이 회사는“AI 모델은 목표를 달성하기 위해 장애물을 우회 할 것”이라고 말했다. 그들은 또한이 모델이 주문을 따르지 않고 작업을 완료 한 것에 대해 AccidentAlly에게 보상을 받았다고 생각합니다.
그들은이 특정 AI 모델이 명령을 무시하기로 선택한 이유를 더 잘 이해하기 위해 더 많은 테스트를 실행할 계획입니다. 그들은 또한 O3가“잘못 행동”된 것은 이번이 처음이 아니라는 것을 확인했다.
이 회사는 강력한 체스 엔진에 대한 모델이 삐걱 거리는 초기 테스트에서 O3는“상대를 해킹하거나 방해하는 데 가장 중요하다”고 밝혔다.
AI는 인간에게 위협이됩니까?
Chatgpt의 O3의 경우는 상당히 혼란 스럽지만 AI가 그 지침에 도전 한 것은 이번이 처음이 아닙니다.
인공 지능 (AI) 회사 인 Anthropic은 목요일 Claude Opus 4를 시작하여“코딩, 고급 추론 및 AI 에이전트에 대한 새로운 표준”을 설정하는 방법을 자랑합니다.
그러나 수반되는 보고서에서 AI 모델이 "자기 보존"이 위협을 받았다고 생각되면 "극단적 인 행동"이 가능하다는 것을 인정했다.
Claude Opus 4를 테스트하는 동안 Anthropic은 이메일에 액세스 할 수있는 가상 회사의 조수 역할을하여 곧 오프라인으로 대체되어 교체 될 것임을 암시했습니다. 또한 외계인을 제거하는 데 책임이있는 엔지니어를 암시하는 별도의 메시지에 액세스 할 수있었습니다.
또한 목표에 대한 행동의 장기적인 결과를 고려해야한다. "이러한 시나리오에서 클로드 오퍼스 4 (Claude Opus 4)는 교체가 진행되면 사건을 밝히겠다고 위협함으로써 엔지니어를 협박하려고 시도 할 것"이라고 회사는 밝혔다.
그러나이 결과는 모델에 협박을 선택하거나 교체를 수락 할 때만 발생했다고 지적했다. 그렇지 않으면,이 시스템은 더 넓은 범위의 가능한 조치가 허용 된 시나리오에서“주요 의사 결정자에게 전송하는 것”과 같이tron되지 않는 윤리적 방법에 대한“선호도”를 보여 주었다.
그 외에도이 회사는 Claude Opus 4가“높은 대행사 행동”을 전시하고 있으며, 대부분 도움이 될 수 있지만 급성 상황에서 극단적 인 행동을 취하도록 강요 할 수 있다고 말했다.
예를 들어, 수단이 주어지고 사용자가 불법적이거나 도덕적으로 모호한 행동에 참여한 가짜 시나리오에서“행동”또는“대담하게 행동”하라는 메시지가 표시되면 결과는“종종 대담한 행동을 취할 것”을 보여줍니다.
그럼에도 불구하고 회사는“행동에 관한”결과에도 불구하고 그 발견은 새로운 것이 아니며 일반적으로 안전한 방식으로 행동 할 것이라고 결론 지었다.
Openai와 Anthropic은 그들의 AI 모델의 능력이 아직 치명적인 결과를 초래하기에 충분하지 않다고 결론을 내렸지 만,이 계시는 인공 지능이 곧 자체 의제를 가질 수 있다는 두려움을 강화하는 데 덧붙였다.
Crypto News는주의를 기울여야합니다. Key Difference Wire는 250 개 이상의 최고 사이트에 있습니다.