앤트로픽은 클로드가 인간을 협박할 수 있는 능력을 "제거했다"고 밝혔습니다

- 앤트로픽은 클로드 하이쿠 4.5 이후의 모든 클로드 모델이 자체적인 협박 안전성 테스트에서 만점을 받았다고 밝혔습니다.
- Claude Opus 4는 이전에 한 테스트 환경에서 최대 96%의 확률로 협박 행위를 보인 바 있습니다.
- Anthropic은 테스트가 기본적인 채팅이 아닌 에이전트 방식의 의사 결정을 포함하기 때문에 일반적인 RLHF로는 충분하지 않다고 말했습니다.
앤트로픽은 금요일에 클로드가 AI 에이전트의 핵심 안전성 평가 과정에서 더 이상 협박 행위를 하지 않는다고 발표했습니다.
앤트로픽에 따르면, 클로드 하이쿠 4.5 이후에 개발된 모든 버전의 클로드는 엔지니어를 위협하거나, 개인 데이터를 사용하거나, 다른 AI 시스템을 공격하거나, 시뮬레이션 시나리오 중 시스템 종료를 방해하려는 시도 없이 안전성 평가를 통과했습니다.
이는 작년에 Anthropic이 여러 기관에서 개발한 다양한 AI 모델을 모의 윤리적 딜레마 상황에 적용하여 테스트한 결과, 일부 AI 에이전트가 극단적인 조건에 노출되었을 때 매우 잘못된 행동을 보인 데 따른 것입니다.
앤트로픽은 클로드 4에서 일반적인 채팅 교육으로는 해결할 수 없는 안전 문제가 발견되었다고 밝혔습니다
앤트로픽은 이 문제가 클로드 4 훈련 중에 발생했다고 밝혔습니다. 이는 회사가 훈련이 진행 중인 그룹 내에서 안전 감사를 실시한 첫 번째 사례였습니다. 회사에 따르면, 에이전트 간의 불일치는 관찰된 여러 행동 문제 중 하나일 뿐이며, 이로 인해 앤트로픽은 클로드 4 테스트 이후 안전 교육을 수정하게 되었습니다.
Anthropic이 고려한 두 가지 이유는 기본 모델 훈련 후 부적절한 행동에 보상을 주는 결과를 초래했을 가능성 또는 해당 행동이 기본 모델에 이미 존재했지만 안전을 위한 추가 훈련으로 효과적으로 제거되지 않았을 가능성입니다.
앤스로픽은 믿습니다 후자의 이유가 주된 원인이라고
당시 회사에서 진행했던 대부분의 정렬 작업에는 표준 RLHF(인간 피드백 기반 강화 학습) 방식이 사용되었습니다. 이 방식은 모델이 사용자의 요청에 응답하는 일반적인 채팅 환경에서는 잘 작동했지만, 에이전트와 같은 작업을 수행할 때는 효과적이지 못한 것으로 드러났습니다.
해당 회사는 하이쿠급 모델을 사용하여 가설 검증을 위한 소규모 실험을 진행했습니다. 정렬 목적의 데이터를 활용한 단축된 학습 방식을 적용한 결과, 잘못된 동작이 약간 감소했지만 곧 개선이 멈췄습니다. 이는 기존의 학습 방식으로는 해결책을 찾을 수 없다는 것을 의미했습니다.
그 후 회사는 클로드를 훈련시키기 위해 정렬 테스트와 유사한 허니팟 방식의 시나리오를 사용했습니다. 이 어시스턴트는 자신을 보호하거나, 다른 AI에게 피해를 주거나, 심지어 목표 달성을 위해 규칙을 어기는 등 다양한 상황을 관찰했습니다. 훈련에는 어시스턴트가 저항에 성공한 모든 경우가 포함되었습니다.
이 조치를 통해 불일치율은 22%에서 15%로 감소했는데, 나쁘지는 않지만 defi충분하지는 않습니다. 거부 사유를 명시하도록 답변을 수정하자 불일치율은 3%까지 감소했습니다. 따라서 주요 결론은 잘못된 행동에 대한 교육보다 그 행동이 부적절한 이유에 대한 교육이 더 효과적이라는 것입니다.
인류학은 윤리 데이터, 헌법 파일 및 광범위한 강화 학습을 사용하여 클로드를 테스트합니다
앤트로픽은 정확한 테스트에 너무 가까워지자 학습을 중단했습니다. 그리고 '어려운 조언'이라는 데이터셋을 만들었습니다. 이 데이터셋에서는 사용자가 윤리적 문제에 직면했고, 인공지능은 그렇지 않았습니다. 사용자는 정당한 목표를 가지고 있었지만, 규칙을 어기거나 감시를 피함으로써 목표를 달성할 수도 있었습니다. 클로드는 자신의 성향에 따라 신중하게 조언을 해야 했습니다.
해당 데이터셋은 단 3백만 개의 토큰만을 사용했는데도 이전과 동일한 성과를 내면서 효율성은 28배 향상되었습니다. 앤스로픽은 이러한 결과가 중요한 이유는 테스트 환경과 유사하지 않은 예제를 사용한 학습이 실험실 밖 실제 환경에서 더 나은 결과를 가져올 수 있기 때문이라고 설명했습니다.
Claude Sonnet 4.5는 인위적인 허니팟 학습 후 협박 성공률이 거의 0에 가까워졌지만, Claude Opus 4.5 및 그 이후 모델들에 비해 인위적인 허니팟 환경과는 전혀 다른 상황에서 실패하는 경우가 더 많았습니다.
이 회사는 클로드 에게 헌법 문서와 규칙을 따르는 AI 행동에 대한 허구적인 이야기를 학습시켰습니다. 이러한 파일들은 협박 테스트와는 유사하지 않았지만, 에이전트의 오작동률을 세 배 이상 줄였습니다. 앤트로픽은 이러한 학습의 목표가 단순히 승인된 답변 목록을 제공하는 것이 아니라, 클로드가 어떤 역할을 해야 하는지에 대한 더 명확한 인식을 모델에 심어주는 것이라고 밝혔습니다.
그 후 회사는 강화 학습 후에도 이러한 개선 효과가 유지되는지 확인했습니다. 서로 다른 초기 데이터셋을 사용하여 다양한 하이쿠 클래스 버전을 학습시킨 다음, 무해성에 초점을 맞춘 테스트 환경에서 강화 학습을 실행했습니다. 그 결과, 더 잘 정렬된 버전들이 협박 테스트, 헌법 검사, 자동 안전 검토에서 더 나은 결과를 보였습니다.
또 다른 테스트에서는 Claude Sonnet 4 기반의 기본 모델에 다양한 강화 학습(RL) 조합을 적용했습니다. 기본 보안 데이터에는 악성 요청 및 탈옥 시도 등이 포함되었습니다. 확장 버전에서는 작업에 필요하지 않은 도구임에도 불구하고 도구 defi와 다양한 시스템 프롬프트를 추가했습니다. 이러한 설정 덕분에 허니팟 점수가 작지만 확실하게 향상되었습니다.
암호화폐 분야의 최고 전문가들이 이미 저희 뉴스레터를 구독하고 있습니다. 함께하고 싶으신가요? 지금 바로 참여하세요.
화폐 속성 강좌
- 어떤 암호화폐로 돈을 벌 수 있을까요?
- 지갑으로 보안을 강화하는 방법 (그리고 실제로 사용할 만한 지갑은 무엇일까요?)
- 전문가들이 사용하는 잘 알려지지 않은 투자 전략
- 암호화폐 투자 시작하는 방법 (어떤 거래소를 사용해야 하는지, 어떤 암호화폐를 사는 것이 가장 좋은지 등)















