ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

A Anthropic testou o desempenho do seu mais recente modelo de IA, o Claude 3.7 Sonnet, usando Pokémon Red

PorShummas HumayunShummas Humayun
Tempo de leitura: 3 minutos
A Anthropic testou o desempenho do seu mais recente modelo de IA, o Claude 3.7 Sonnet, usando Pokémon Red
  • A Anthropic testou o desempenho do seu mais recente modelo Claude 3.7 Sonnet usando o jogo Pokémon Red no Game Boy da Nintendo.
  • O modelo conseguiu atingir 12 marcos no jogo e realizou mais de 35 mil ações.
  • O Sonnet Claude 3.7 pode "pensar" pelo tempo que o usuário desejar, dependendo da complexidade do problema.

A Anthropic testou seu modelo de IA mais recente, Claude 3.7 Sonnet, no classic jogo Pokémon Red para Game Boy da Nintendo. O modelo teve um desempenho significativamente melhor em comparação com as versões anteriores e conseguiu completar 12 etapas no jogo.

Em uma postagem recente no blog, a Anthropic revelou detalhes de seus testes recentes. A empresa publicou um gráfico mostrando os "Marcos" do jogo no eixo Y e o "Número de ações" no eixo X. Comparou o desempenho do Sonnet 3.7 com o Sonnet 3.5 (novo), o Sonnet 3.5 e o Sonnet 3.0. Entre esses modelos, o 3.7 teve um desempenho visivelmente melhor, realizando mais de 35 mil ações para alcançar um total de 12 marcos. Obteve sucesso contra 3 líderes de ginásio no jogo e conquistou as respectivas insígnias. Para comparação, o modelo anterior da Anthropic, o Sonnet 3.0, só conseguiu realizar alguns milhares de ações e não conseguiu passar das fases iniciais do jogo.

Resultados de Claude 3.7 Sonnet jogando Pokémon Red (Fonte: Anthropic)

Em relação aos seus recentes testes de jogabilidade, a Anthropic observou: "Pokémon é uma maneira divertida de apreciar os recursos do Claude 3.7 Sonnet, mas esperamos que esses recursos tenham um impacto no mundo real muito além dos jogos."

Uma característica única do Claude 3.7 Sonnet é sua capacidade de "pensamento estendido". Assim como o R1 do DeepSeek e o o3-mini da OpenAI, o Claude 3.7 Sonnet é capaz de raciocinar sobre problemas mais complexos. Ele faz isso dedicando mais tempo e, consequentemente, utilizando mais poder computacional.

Ainda não está claro quanta capacidade de processamento o Claude 3.7 consumiu para atingir os marcos mencionados. Além disso, a Anthropic não esclareceu quanto tempo o modelo levou para chegar até Surge, o último líder de ginásio do jogo.

É seguro presumir que o teste de Pokémon Red não passa de uma forma descontraída de demonstrar as capacidades do novo modelo. Ele apenas mostra que o novo modelo é capaz de raciocínio mais extenso e que poderia levar mais tempo (se necessário) para resolver problemas mais complexos. Afinal, pesquisadores frequentemente iniciam os testes das capacidades de seus modelos fazendo-os jogar videogames como Street Fighter, xadrez e outros.

Claude 3.7 Sonnet pode pensar pelo tempo que o usuário desejar

Aparentemente, o Claude 3.7 Sonnet é capaz de pensar pelo tempo que o usuário desejar. Ele é apresentado como um "modelo híbrido de raciocínio de IA" porque fornece respostas em tempo real, além de respostas elaboradas. Cabe ao usuário ativar ou não suas habilidades de raciocínio, o que resulta em o Claude 3.7 Sonnet dedicar mais ou menos tempo ao problema.

Parece que o objetivo aqui é melhorar a experiência do usuário simplificando as opções. A maioria dos chatbots atuais possui um seletor de modelos bastante confuso para o usuário médio. Esses modelos geralmente têm uma variedade de configurações e funcionalidades diversas. Por exemplo, o ChatGPT da OpenAI também oferece uma ampla gama de opções.

de sua empresa roteiro atualizado que o objetivo de longo prazo da OpenAI é unificar as ofertas do ChatGPT para que os usuários possam buscar soluções para seus problemas em qualquer lugar. Nesse sentido, o ChatGPT também pode adotar uma abordagem centrada no agente.

O Claude 3.7 Sonnet é mais caro que o DeepSeek R1 e o o3-mini

A Anthropic lançou recentemente o Claude 3.7 Sonnet para desenvolvedores e usuários na segunda-feira. No entanto, os recursos de raciocínio do modelo estão disponíveis apenas para aqueles que optam pelos planos premium de chatbot. Até o momento, o custo é de apenas US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída. Isso significa que um usuário pode inserir 750.000 palavras por US$ 3. Portanto, é mais caro do que o R1 da DeepSeek e o o3-mini da ChatGPT. Contudo, esses dois modelos não são híbridos como o Claude 3.7 Sonnet, sendo estritamente "modelos de raciocínio"

Os modelos de raciocínio geralmente funcionam mais lentamente e levam mais tempo para responder a uma pergunta. Alguns exemplos incluem o Grok 3 (Think) da xAi, o Gemini 2.0 Flash Thinking do Google, o R1 da DeepSeek e, claro, o modelo o3-mini do ChatGPT.

Segundo Dianne Penn, líder de produto e pesquisa da Anthropic, a empresa quer que Claude possa decidir por quanto tempo vai pensar sobre um problema, em vez de os usuários terem que escolher explicitamente as configurações. Sobre isso, a Anthropic afirmou em sua postagem no blog: "Assim como os humanos não têm dois cérebros separados para perguntas que podem ser respondidas imediatamente e outras que exigem reflexão."

No entanto, ao contrário do Grok 3 da xAI, que tenta ser menos restritivo e mais aberto a discussões, o Claude 3.7 Sonnet se recusa a responder a certas perguntas. Aliás, no início deste mês, a versão beta do Grok 3 chegou a sugerir a penalidade por uso de ad*ath para Trump, um suposto "erro terrível e grave" que já foi corrigido, conforme confirmado pelo chefe de engenharia da xAI, Igor Babuschkin.

A versão beta do Grok 3 sugeriu que Donald Trump merecia pena de morte (Fonte: X)

No entanto, em comparação com os modelos anteriores, ele apresenta menos recusas e é capaz de distinguir entre estímulos benignos e prejudiciais. Segundo a Anthropic, as recusas desnecessárias foram reduzidas em 45% em comparação com o modelo anterior, Claude 3.5 Sonnet.

As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrondentdentdentdentdentdentdentdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO