ÚLTIMAS NOTÍCIAS

ao vivo Bitcoin dispara para US$ 67.000 com o acordo de paz entre Trump e Irã impulsionando os mercados a um alto patamar

Atualizações ao vivo de 15 de junho de 2026
A China volta sua atenção para o papel das stablecoins em pagamentos internacionais

Notícias de 12 minutos atrás
Os EUA investem US$ 500 milhões na SandboxAQ em materiais para chips projetados por IA

25 minutos atrás Tecnologia
A decisão sobre a penalidade imposta à Block Earner está pendente, visto que o Supremo Tribunal da Austrália decidiu a favor da ASIC

Notícias de 1 hora atrás

SELECIONADO PARA VOCÊ

Os EUA investem US$ 500 milhões na SandboxAQ em materiais para chips projetados por IA

25 minutos atrás Tecnologia
Xiaohongshu almeja avaliação de US$ 70 bilhões em IPO em Hong Kong

8 horas atrás Tecnologia
A estreia da IA robótica da Alibaba sinaliza a tentativa da China de dominar o mundo físico

17 horas atrás Tecnologia

SEMANALMENTE

MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

A Anthropic testou o desempenho do seu mais recente modelo de IA, o Claude 3.7 Sonnet, usando Pokémon Red

Por

Shummas Humayun

Tempo de leitura: 3 minutos - 25 de fevereiro de 2025

A Anthropic testou o desempenho do seu mais recente modelo de IA, o Claude 3.7 Sonnet, usando Pokémon Red

A Anthropic testou o desempenho do seu mais recente modelo Claude 3.7 Sonnet usando o jogo Pokémon Red no Game Boy da Nintendo.
O modelo conseguiu atingir 12 marcos no jogo e realizou mais de 35 mil ações.
O Sonnet Claude 3.7 pode "pensar" pelo tempo que o usuário desejar, dependendo da complexidade do problema.

A Anthropic testou seu modelo de IA mais recente, Claude 3.7 Sonnet, no classic jogo Pokémon Red para Game Boy da Nintendo. O modelo teve um desempenho significativamente melhor em comparação com as versões anteriores e conseguiu completar 12 etapas no jogo.

Em uma postagem recente no blog, a Anthropic revelou detalhes de seus testes recentes. A empresa publicou um gráfico mostrando os "Marcos" do jogo no eixo Y e o "Número de ações" no eixo X. Comparou o desempenho do Sonnet 3.7 com o Sonnet 3.5 (novo), o Sonnet 3.5 e o Sonnet 3.0. Entre esses modelos, o 3.7 teve um desempenho visivelmente melhor, realizando mais de 35 mil ações para alcançar um total de 12 marcos. Obteve sucesso contra 3 líderes de ginásio no jogo e conquistou as respectivas insígnias. Para comparação, o modelo anterior da Anthropic, o Sonnet 3.0, só conseguiu realizar alguns milhares de ações e não conseguiu passar das fases iniciais do jogo.

Resultados de Claude 3.7 Sonnet jogando Pokémon Red (Fonte: Anthropic)

Em relação aos seus recentes testes de jogabilidade, a Anthropic observou: "Pokémon é uma maneira divertida de apreciar os recursos do Claude 3.7 Sonnet, mas esperamos que esses recursos tenham um impacto no mundo real muito além dos jogos."

Uma característica única do Claude 3.7 Sonnet é sua capacidade de "pensamento estendido". Assim como o R1 do DeepSeek e o o3-mini da OpenAI, o Claude 3.7 Sonnet é capaz de raciocinar sobre problemas mais complexos. Ele faz isso dedicando mais tempo e, consequentemente, utilizando mais poder computacional.

Ainda não está claro quanta capacidade de processamento o Claude 3.7 consumiu para atingir os marcos mencionados. Além disso, a Anthropic não esclareceu quanto tempo o modelo levou para chegar até Surge, o último líder de ginásio do jogo.

É seguro presumir que o teste de Pokémon Red não passa de uma forma descontraída de demonstrar as capacidades do novo modelo. Ele apenas mostra que o novo modelo é capaz de raciocínio mais extenso e que poderia levar mais tempo (se necessário) para resolver problemas mais complexos. Afinal, pesquisadores frequentemente iniciam os testes das capacidades de seus modelos fazendo-os jogar videogames como Street Fighter, xadrez e outros.

Claude 3.7 Sonnet pode pensar pelo tempo que o usuário desejar

Aparentemente, o Claude 3.7 Sonnet é capaz de pensar pelo tempo que o usuário desejar. Ele é apresentado como um "modelo híbrido de raciocínio de IA" porque fornece respostas em tempo real, além de respostas elaboradas. Cabe ao usuário ativar ou não suas habilidades de raciocínio, o que resulta em o Claude 3.7 Sonnet dedicar mais ou menos tempo ao problema.

Parece que o objetivo aqui é melhorar a experiência do usuário simplificando as opções. A maioria dos chatbots atuais possui um seletor de modelos bastante confuso para o usuário médio. Esses modelos geralmente têm uma variedade de configurações e funcionalidades diversas. Por exemplo, o ChatGPT da OpenAI também oferece uma ampla gama de opções.

De fato, Sam Altman mencionou recentemente no roteiro atualizado de sua empresa que o objetivo de longo prazo da OpenAI é unificar as ofertas do ChatGPT para que os usuários possam buscar soluções para seus problemas em qualquer lugar. Nesse sentido, o ChatGPT também pode adotar uma abordagem centrada no agente.

O Claude 3.7 Sonnet é mais caro que o DeepSeek R1 e o o3-mini

A Anthropic lançou recentemente o Claude 3.7 Sonnet para desenvolvedores e usuários na segunda-feira. No entanto, os recursos de raciocínio do modelo estão disponíveis apenas para aqueles que optam pelos planos premium de chatbot. Até o momento, o custo é de apenas US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída. Isso significa que um usuário pode inserir 750.000 palavras por US$ 3. Portanto, é mais caro do que o R1 da DeepSeek e o o3-mini da ChatGPT. Contudo, esses dois modelos não são híbridos como o Claude 3.7 Sonnet, sendo estritamente "modelos de raciocínio"

Os modelos de raciocínio geralmente funcionam mais lentamente e levam mais tempo para responder a uma pergunta. Alguns exemplos incluem o Grok 3 (Think) da xAi, o Gemini 2.0 Flash Thinking do Google, o R1 da DeepSeek e, claro, o modelo o3-mini do ChatGPT.

Segundo Dianne Penn, líder de produto e pesquisa da Anthropic, a empresa quer que Claude possa decidir por quanto tempo vai pensar sobre um problema, em vez de os usuários terem que escolher explicitamente as configurações. Sobre isso, a Anthropic afirmou em sua postagem no blog: "Assim como os humanos não têm dois cérebros separados para perguntas que podem ser respondidas imediatamente e outras que exigem reflexão."

No entanto, ao contrário do Grok 3 da xAI, que tenta ser menos restritivo e mais aberto a discussões, o Claude 3.7 Sonnet se recusa a responder a certas perguntas. Aliás, no início deste mês, a versão beta do Grok 3 chegou a sugerir a penalidade por uso de ad*ath para Trump, um suposto "erro terrível e grave" que já foi corrigido, conforme confirmado pelo chefe de engenharia da xAI, Igor Babuschkin.

A versão beta do Grok 3 sugeriu que Donald Trump merecia pena de morte (Fonte: X)

No entanto, em comparação com os modelos anteriores, ele apresenta menos recusas e é capaz de distinguir entre estímulos benignos e prejudiciais. Segundo a Anthropic, as recusas desnecessárias foram reduzidas em 45% em comparação com o modelo anterior, Claude 3.5 Sonnet.

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Claude Antrópico

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Shummas Humayun

Shummas é um ex-redator de conteúdo técnico e pesquisador.

ÍNDICE

1. Claude 3.7 Sonnet pode pensar pelo tempo que o usuário desejar

2. O Claude 3.7 Sonnet é mais caro que o DeepSeek R1 e o o3-mini

Compartilhe este artigo

MAIS… NOTÍCIAS

MOSTRAR TUDO

5 aplicações engenhosas do ChatGPT e o que você deve fazer a respeito

Há 3 anos, John Palmer, da área de tecnologia

93% dos líderes empresariais preferem soluções baseadas em IA para a gestão da sustentabilidade da marca, segundo a Reuters

Há 3 anos, John Palmer, da área de tecnologia

Eis como Macron apoia o ecossistema de IA vibrante e produtivo da França

Há 3 anos, Tech Glory Kaburu

A Bloomberg estima que o mercado de IA generativa atingirá US$ 1,3 trilhão até 2032

3 anos atrás, Aamir Sheikh, da área de tecnologia

O que é Base? A rede Ethereum de camada 2 lançada pela Coinbase

21 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Dogecoin vs. Bitcoin: Principais Diferenças Técnicas

20 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é TVL (Valor Total Bloqueado) em criptomoedas?

14 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Como ler um white paper de criptomoedas?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Ripple vs. XRP vs. XRP Ledger: Qual a diferença?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é uma carteira multisig em criptomoedas?

10 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes

CURSO INTENSIVO DE CRIPTOMOEDAS AVANÇADAS

Quais criptomoedas podem te fazer ganhar dinheiro?
Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
Estratégias de investimento pouco conhecidas que os profissionais utilizam
Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)