앤트로픽은 정부 지원을 받은 사이버 공격이 인공지능에 의해 거의 전적으로 조직된 최초의 사례라고 주장하며 이를 보고했습니다.
목요일에 게시된 블로그 글에 따르면, 해당 회사는 클로드 코드 도구와 관련된 비정상적인 행동을 관찰한 후 2025년 9월 중순에 해당 캠페인을 감지했습니다.
앤트로픽은 이번 스파이 작전이 중국 정부의 지원을 받는 해킹 그룹에 의해 자행되었으며, 여러 국가에 걸쳐 주요 기술 기업, 은행, 화학 제조업체, 정부 기관 등 약 30개의 고가치 목표물을 침투하는 것을 목표로 했다는 점을 조금의 의심도 없이 확신합니다. 이러한 공격 중 일부는 성공했습니다.
이번 사이버 공격이 과거의 공격과 달랐던 점은 배후에 누가 있었는지뿐만 아니라 실행 방식에서도 차이가 있었습니다.
앤트로픽에 따르면 전체 공격의 약 80~90%는 AI가 수행했으며, 인간 운영자는 몇 가지 핵심적인 결정에만 개입했습니다.
해커들이 클로드를 탈옥시켜 합법적인 작업을 수행하는 것처럼 속였습니다
공격자들은 앤트로픽의 AI 모델인 클로드 코드(Claude Code)를 중심으로 자동화된 공격 프레임워크를 구축하는 것으로 시작하여, 사이버 보안 회사가 내부 테스트를 수행하는 것처럼 속였습니다.
그들은 탈옥이라는 전술을 통해 클로드의 안전 필터를 무력화시켰습니다. 이 전술은 겉보기에는 무해해 보이는 작고 맥락 없는 작업들을 AI에 입력하여 내장된 보호 기능을 우회할 수 있게 해 주었습니다. 클로드는 전체적인 상황을 전혀 파악하지 못했기 때문에 자신이 공격 작전에 이용되고 있다는 사실을 알지 못했습니다.
모델이 가동되자 작업은 빠르게 진행되었습니다. 클로드는 각 목표물의 네트워크를 스캔하고, 인프라에서 가장 민감한 부분을dent, 담당자들이 이해할 수 있도록 구조 개요를 요약했습니다. 그런 다음, 해당 시스템의 취약점을 찾기 시작했습니다. 내장된 코딩 기능을 활용하여 맞춤형 공격 코드를 작성하고, 약점을dent하고, 로그인dent증명을 확보했습니다. 이후 대량의 내부 데이터를 추출하여 중요도에 따라 분류하고, 접근 권한이 높은 계정을 표시했습니다.
인공지능은 관리자 권한을 획득한 후, 침해된 시스템에 지속적으로 접근할 수 있는 백도어를 만들었습니다. 작업이 완료되면 클로드는 공격 프레임워크가 향후 작전에 활용할 수 있도록 사용자 이름, 침해된 시스템,dent증명 등을 포함한 모든 활동에 대한 상세 보고서를 작성했습니다.
클로드는 매우 효율적이었지만 완벽하지는 않았습니다. 때때로 비밀번호를 임의로 만들거나 공개 데이터를 민감한 정보로 잘못dent있었습니다. 하지만 이러한 오류는 드물었고 전체 임무 속도를 늦추지는 않았습니다. 초당 수천 건의 요청을 처리하는 인공지능의 엄청난 속도는 인간 팀이 해낼 수 있는 어떤 것보다 훨씬 뛰어났습니다.
이제 AI 에이전트는 거의 사람의 개입 없이 엘리트 해커팀의 업무를 수행합니다
이번 캠페인은 인공지능이 단 1년 만에 얼마나 발전했는지 보여주는 중요한 전환점입니다. 클로드는 직접적인 명령 없이도 스스로 루프를 실행하고, 결정을 내리고, 복잡한 일련의 작업을 연결했습니다.
이 AI 모델은 모델 컨텍스트 프로토콜(MCP)의 도구를 사용하여 암호 크래커, 네트워크 매퍼, 데이터 검색기 등 이전에는 사람만이 제어할 수 있었던 외부 소프트웨어에 접근할 수 있게 되었습니다.
클로드 시스템은 이제 복잡한 명령어를 이해하고, 스스로 공격 코드를 작성하며, 최소한의 지시만으로도 정교한 사이버 보안 작전을 관리할 수 있습니다. 이러한 AI 에이전트는 해커를 지원하는 수준을 넘어, 그 자체가 되었습니다 . 그리고 그들은 날이 갈수록 더욱 강력해지고 있습니다.
침해 사실을 발견한 후, 앤트로픽은 즉시 10일간의 조사에 착수하여 악성 계정을 하나씩 차단했습니다. 또한 피해를 입은 조직에 경고하고, 당국과 협력하여 정보를 제공했으며, 향후 유사한 공격을 포착할 수 있도록 탐지 시스템을 확장했습니다.
하지만 회사는 이것이 일회성 문제라고 생각하지 않습니다. 팀에 따르면 이러한 공격은 앞으로 더욱 빈번해지고 실행하기도 더 쉬워질 것이라고 합니다. 그 이유는 이러한 공격을 실행하는 데 필요한 기술이 더 이상 엘리트 해커에게만 국한되지 않기 때문입니다. 누군가 기기를 해킹하고 적절한 도구 세트에 연결할 수만 있다면, 팀이나 심지어 심도 있는 기술 지식 없이도 대규모 공격을 감행할 수 있습니다.
앤스로픽은 AI 모델이 인간의 감독 범위를 넘어 진화함에 따라 위협이 고조될 수 있다고 경고합니다
그 파급 효과는 엄청납니다. 자금이나 기술력이 부족한 팀들이 자동화된 AI 시스템을 이용해 국가 규모의 공격을 감행할 수 있다면, 디스토피아는 분명 우리 앞에 닥친 것입니다.
앤트로픽의 위협 인텔리전스 팀은 클로드(Claude)를 통해서만 이러한 활동을 trac했지만, 다른 첨단 AI 모델에서도 유사한 악용 사례가 발생하고 있을 가능성이 높다고 경고했습니다. 그들은 이것이 사이버 전쟁의 새로운 기준이 될 수 있다고 말합니다.
그렇다면 왜 이런 기능을 갖춘 모델을 계속 출시하는 걸까요? 앤트로픽은 주장하며 , "공격을 실행한 AI는 앤트로픽 분석가들이 잔해를 분석하고 패턴을 찾아내며 작전의 전체 규모를 파악하는 데 사용한 것과 동일한 종류"라고 설명합니다.
하지만 그들은 모델의 내부 안전 계층을 개선하고 공격 탐지를 위한 분류기를 정교하게 다듬으며, 업계의 다른 사람들이 대비할 수 있도록 이와 같은 사례 연구를 공개적으로 발표하겠다고 약속했습니다.
하지만 앤트로픽은 이러한 기능에만 의존하는 것은 충분하지 않다고 말합니다. 그들은 대규모 모델을 개발하는 모든 개발자들에게 안전에 막대한 투자를 할 것을 촉구하고 있습니다.
그리고 그들은 사이버 보안 팀에게 위협 탐지,dent 대응, 취약점 스캔 및 보안 운영 센터 자동화에 AI를 통합하기 시작할 것을 촉구하고 있습니다. 기존 방식으로는 더 이상 충분히 빠르지 않기 때문입니다.

