Anthropic은 Pokémon Red를 사용하여 최신 Claude 3.7 Sonnet AI 모델의 벤치마킹을 수행했습니다

슈마스 후마윤 지음

읽는 데 3분 소요 , 2025년 2월 25일

Anthropic은 Pokémon Red를 사용하여 최신 Claude 3.7 Sonnet AI 모델의 벤치마킹을 수행했습니다

Anthropic은 닌텐도 게임보이용 포켓몬 레드 게임을 사용하여 최신 Claude 3.7 Sonnet 모델의 성능 벤치마킹을 진행했습니다.
해당 모델은 게임 내에서 12개의 주요 목표를 달성했으며 3만 5천 건 이상의 동작을 수행했습니다.
Claude 3.7 Sonnet은 사용자가 문제의 복잡성에 따라 원하는 만큼 오랫동안 "생각"할 수 있습니다.

앤스로픽은 최신 AI 모델인 클로드 3.7 소네트를 닌텐도 게임보이용 classic 게임인 포켓몬 레드에서 벤치마킹했습니다. 이 모델은 이전 버전에 비해 성능이 크게 향상되었으며 게임 내 12개의 주요 목표를 달성했습니다.

최근 블로그 게시물Anthropic은 최근 테스트 결과를 공개했습니다. 회사는 Y축에 게임 내 '이정표', X축에 '행동 횟수'를 나타낸 그래프를 게시했습니다. 이 그래프는 3.7 Sonnet과 3.5 Sonnet(신형), 3.5 Sonnet, 그리고 3.0 Sonnet의 성능을 비교한 것입니다. 이 모델들 중에서 3.7 Sonnet은 3만 5천 번 이상의 행동을 수행하며 총 12개의 이정표를 달성하는 등 확연한 성능 향상을 보였습니다. 또한 게임 내 체육관 관장 3명을 상대로 승리하여 해당 배지를 획득했습니다. 비교하자면, Anthropic의 이전 모델인 3.0 Sonnet은 몇천 번의 행동밖에 수행하지 못했고 게임 초반 단계조차 통과하지 못했습니다.

클로드 3.7 소네트가 포켓몬 레드를 플레이한 결과 (출처: Anthropic)

최근 진행된 게임플레이 테스트와 관련하여 앤트로픽은 "포켓몬은 클로드 3.7 소네트의 성능을 재미있게 경험할 수 있는 방법이지만, 이러한 성능이 게임 플레이를 훨씬 뛰어넘는 실질적인 영향을 미칠 것으로 기대합니다."라고 언급했습니다

Claude 3.7 Sonnet의 독특한 특징 중 하나는 "확장된 사고"를 한다는 점입니다. DeepSeek의 R1이나 OpenAI의 o3-mini처럼 Claude 3.7 Sonnet은 더 어려운 문제들을 추론을 통해 해결할 수 있습니다. 이를 위해서는 더 많은 시간이 소요되고, 그만큼 더 많은 컴퓨팅 파워가 필요합니다.

클로드 3.7이 앞서 언급한 목표들을 달성하는 데 얼마나 많은 컴퓨팅 파워를 소모했는지는 아직 명확하지 않습니다. 또한, 앤스로픽은 게임 내 마지막 체육관 관장인 서지에게 도달하는 데 모델이 얼마나 시간이 걸렸는지도 밝히지 않았습니다.

포켓몬 레드 테스트는 새로운 모델의 능력을 가볍게 보여주는 예시에 불과하다고 보는 것이 타당해 보입니다. 이는 새로운 모델이 확장된 추론 능력을 갖추고 있으며, 더 복잡한 문제를 해결하는 데 필요하다면 더 많은 시간을 투자할 수 있음을 보여주는 것일 뿐입니다. 실제로 연구자들은 스트리트 파이터나 체스 등 다양한 비디오 게임을 모델에 적용하여 성능을 테스트하는 방식을 흔히 사용해 왔습니다.

클로드 3.7 소네트는 사용자가 원하는 만큼 생각할 수 있습니다

클로드 3.7 소네트는 사용자가 원하는 만큼 생각할 수 있는 것으로 알려져 있습니다. 실시간으로 답변을 제공하는 동시에 심사숙고한 결과를 제시하기 때문에 "하이브리드 AI 추론 모델"로 불립니다. 추론 기능을 활성화할지 여부는 사용자에게 달려 있으며, 이에 따라 클로드 3.7 소네트가 문제 해결에 소요하는 시간도 달라집니다.

여기서 목표는 옵션을 단순화하여 사용자 경험을 개선하는 것으로 보입니다. 오늘날 대부분의 챗봇은 일반 사용자가 이해하기 어려운 모델 선택 기능을 제공합니다. 이러한 모델은 일반적으로 다양한 설정과 기능을 가지고 있습니다. 예를 들어, OpenAI의 ChatGPT도 매우 다양한 모델을 제공합니다.

실제로 샘 알트만은 최근 회사 로드맵 업데이트 OpenAI의 장기 목표는 ChatGPT의 모든 서비스를 통합하여 사용자들이 이동 중에도 문제에 대한 해결책을 검색할 수 있도록 하는 것이라고 언급했습니다. 그런 의미에서 ChatGPT 역시 에이전트 중심적인 접근 방식을 취할 가능성이 있습니다.

Claude 3.7 Sonnet은 DeepSeek R1 및 o3-mini보다 가격이 더 비쌉니다

앤스로픽은 지난 월요일 개발자와 사용자에게 클로드 3.7 소네트를 출시했습니다. 하지만 이 모델의 추론 기능은 프리미엄 챗봇 플랜을 선택한 사용자에게만 제공됩니다. 현재 가격은 입력 토큰 100만 개당 3달러, 출력 토큰 100만 개당 15달러입니다. 즉, 사용자는 3달러로 75만 단어를 입력할 수 있습니다. 따라서 딥시크의 R1과 챗GPT의 o3-mini보다 비쌉니다. 하지만 이 두 모델은 클로드 3.7 소네트처럼 하이브리드 모델이 아니라, 순수하게 '추론 모델'에 가깝습니다

추론 모델은 일반적으로 속도가 느리고 질문에 답하는 데 더 많은 시간이 걸립니다. 예를 들어 xAi의 Grok 3(Think), Google의 Gemini 2.0 Flash Thinking, DeepSeek의 R1, 그리고 ChatGPT의 o3-mini 모델 등이 있습니다.

앤트로픽의 제품 및 연구 책임자인 다이앤 펜에 따르면, 회사는 사용자가 설정을 명시적으로 선택하는 대신 클로드가 문제에 대해 생각하는 시간을 스스로 결정할 수 있도록 하고 싶어합니다. 이와 관련하여 앤트로픽은 블로그 게시물에서 "인간이 즉시 답할 수 있는 질문과 생각을 요하는 질문을 위해 두 개의 별도 뇌를 가지고 있지 않은 것과 유사합니다."라고 설명했습니다 .

하지만 xAI의 Grok 3가 토론에 더 개방적이고 제약을 덜 두는 것과는 달리, Claude 3.7 Sonnet은 특정 질문에 대한 답변을 거부합니다. 실제로 이달 초 Grok 3 베타 버전은 트럼프에게 사형을 선고해야 한다는 의견까지 제시했는데, 이는 xAI의 엔지니어링 책임자인 이고르 바부슈킨이 확인한 바와 같이 "끔찍하고 잘못된 오류"였으며 이후 수정되었습니다.

Grok 3 베타 버전은 도널드 트럼프가 사형을 받아야 한다고 주장했습니다 (출처: X)

하지만 이전 모델과 비교했을 때, 거부하는 빈도가 줄어들었고, 유익한 자극과 유해한 자극을 구분할 수 있게 되었습니다. 앤트로픽(Anthropic)에 따르면, 이전 모델인 클로드 3.5 소네트(Claude 3.5 Sonnet)와 비교했을 때 불필요한 거부가 45% 감소했습니다.

이 글을 읽고 계시다면 이미 앞서 나가고 계신 겁니다. 뉴스레터를 구독하시면 더욱 유익한 정보를 받아보실 수 있습니다.

인류학적 클로드

이 기사를 공유하세요