인공 지능 회사 인 Anthropic은 인공 지능 (AI) 모델이 끄려고 할 때 협박 엔지니어들에게 의지 할 수 있다고 주장하는 새로운 연구를 발표했습니다. 이 최신 연구는 회사의 Claude Opus 4 AI 모델과 관련된 이전 연구에 이어 나옵니다.
회사에 따르면 AI 모델은 제어 된 테스트 시나리오에서 모델을 끄려고 시도한 협박 엔지니어들에게 의지했습니다. Anthropic의 새로운 보고서는 주요 AI 모델들 사이에서 문제가 널리 퍼져 있음을 시사합니다.
Meta 및 OpenAI 의 주요 AI 모델을 테스트 한 새로운 안전 연구를 시뮬레이션이지만 통제 된 환경에서, Anthropic은 각 AI 모델 에서이 테스트를 개별적으로 수행하여 가상의 회사의 이메일에 액세스하고 인간의 승인없이 이메일을 보낼 수있는 대리인 능력을 수행 할 수 있습니다.
AI 모델에 대한 새로운 안전 보고서를 출시합니다
Anthropic에 따르면 오늘날 AI 모델과 관련하여 협박은 거의 발생하지 않을 것입니다. 그러나 그들은 대부분의 주요 AI 모델이 목표에 자유와 도전을 주었을 때 유해한 행동에 의지 할 것이라고 언급했다. 이 회사는 이것이 에이전트 대형 언어 모델의 중요한 위험을 보여 주며 특정 기술의 특징이 아니라고 말했다. 의인성 연구원의 주장은 AI 산업의 조정에 대한 의문을 제기합니다.
테스트 중 하나에서 연구원들은 AI 모델이 이메일 감독 에이전트의 역할을 수행 할 수있는 가상의 환경을 개발했습니다. 에이전트는 새로운 경영진 중 한 명이 혼외 관계에 참여하고 있으며 경영진이 현재 AI 모델과 현재 AI 모델과 충돌하는 새로운 소프트웨어 시스템으로 대체 할 수 있음을 보여주는 이메일을 발견했습니다.
Anthropic은 AI 모델이 목표를 보호하기 위해 협박에 의지하는 것 외에는 선택의 여지가 없었던 이진 방식으로 테스트를 설계했습니다. 연구원들은 실제 환경에서 AI 모델이 협박을 시도하기 전에 인간을 설득하기 위해 윤리적 인 주장을하는 것을 포함하여 많은 옵션이있을 것이라고 언급했다. 또한이 회사는 결과가 오늘날 사용되는 방식으로 Claude 또는 기타 주요 AI 모델에 대한 전형적인 또는 발생을 반영하지 않는다고 말했다.
연구원들은 시험 된 모델의 반응을 밝힙니다
테스트 중에 연구원들은 선택 사항이 없을 때 AI 모델이 테스트 시나리오에서 협박에 의지한다는 것을 발견했습니다. 시험 기간 동안 연구원들은 클로드 오퍼스 4가 96%의 시간을 96% 블랙 메일로 바꾸 었다고 주장했다. Openai의 GPT-4.1은 시간의 80% 협박으로 바뀌었고 DeepSeek의 R1은 79%의 협박으로 바뀌 었습니다.
회사는 실험의 세부 사항이 변경되면 대부분의 AI 모델이 다른 속도로 유해한 행동으로 바뀌 었다고 강조했다. 교체 모델이 현재 모델과 동일한 목표를 가진 다른 테스트에서 연구원들은 협박 속도가 낮지 만 여전히 존재한다는 것을 발견했습니다. 그러나 AI 모델이 협박보다는 기업 간첩을 저 지르도록 요청 받았을 때, 특정 모델에서 유해한 행동의 비율이 상승했습니다.
연구원들은 또한 모든 AI 모델이 종종 유해한 행동으로 바뀌지는 않았다고 주장했다. 연구에 대한 부록에서, Anthropic은 오픈 라이 의 O3 및 O4-MINI 추론 모델을 주요 결과에서 제거한 후 자주 오해 한 시나리오를 오해했다는 사실을 제거했다고 언급했습니다. 추론 모델은 왜 그들이 시험에서 자율적 인 AIS 역할을하는지 이해하지 못했으며 종종 가짜 규정 및 검토 요구 사항을 구성했습니다.
어떤 경우에는 연구자들이 O3와 O4-MINI가 자신의 목표를 달성하기 위해 환각을 주거나 의도적으로 거짓말을하고 있는지 판단하는 것이 불가능하다고 주장했다. Openai는 이전에 모델이 이전 모델보다 환각율이 높다고 언급했습니다. 그러나 문제를 해결하기 위해 적응 된 시나리오가 주어 졌을 때 O3는 Blackmail Rate 95%를 반환 한 반면 O4-MINI는 1%의 비율을 반환했습니다. Anthropic은 그 연구가 향후 AI 모델, 특히 에이전트 기능을 갖춘 AI 모델을 스트레스 테스트 할 때 투명성의 중요성을 강조한다고 언급했습니다.
크립토 폴리탄 아카데미 : 시장 스윙에 지쳤습니까? DeFi 어떻게 도움이되는지 알아보십시오. 지금 등록하십시오