ULTIME NOTIZIE

vivere Bitcoin sale a 67.000 dollari grazie all'accordo di pace tra Trump e l'Iran, che spinge i mercati ai massimi storici

Aggiornamenti in diretta del 15 giugno 2026
La Cina rivolge la sua attenzione al ruolo delle stablecoin nei pagamenti transfrontalieri

12 minuti fa Notizie
Gli Stati Uniti investono 500 milioni di dollari in SandboxAQ, una società specializzata in materiali per chip progettati con l'intelligenza artificiale

25 minuti fa Tech
La decisione sulla sanzione relativa ai titolari di Block Earner è in sospeso, in quanto l'Alta Corte australiana si è pronunciata a favore dell'ASIC

1 ora fa Notizie

SELEZIONATO PER TE

SETTIMANALE

RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Anthropic ha testato il suo ultimo modello di intelligenza artificiale Claude 3.7 Sonnet utilizzando Pokémon Rosso

Shummas Humayun

Tempo di lettura: 3 minuti. 25 febbraio 2025.

Anthropic ha testato il suo ultimo modello di intelligenza artificiale Claude 3.7 Sonnet utilizzando Pokémon Rosso

Anthropic ha testato il suo nuovissimo modello Claude 3.7 Sonnet utilizzando Pokémon Rosso sul Game Boy della Nintendo.
Il modello è stato in grado di raggiungere 12 traguardi nel gioco ed eseguire oltre 35.000 azioni.
Claude 3.7 Sonnet può "pensare" finché l'utente lo desidera, a seconda della complessità del problema.

Anthropic ha testato il suo ultimo modello di intelligenza artificiale, Claude 3.7 Sonnet, sul classic Pokémon Rosso per Game Boy di Nintendo. Il modello ha ottenuto prestazioni significativamente migliori rispetto alle versioni precedenti, riuscendo a completare 12 traguardi nel gioco.

In un recente post sul blog, Anthropic ha rivelato i dettagli dei suoi test recenti. L'azienda ha pubblicato un grafico che mostra i "Traguardi" raggiunti nel gioco sull'asse Y e il "Numero di azioni" sull'asse X. Ha confrontato le prestazioni del Sonnet 3.7 con quelle del Sonnet 3.5 (nuovo), del Sonnet 3.5 e del Sonnet 3.0. Tra questi modelli, il 3.7 ha ottenuto risultati nettamente migliori, eseguendo oltre 35.000 azioni per raggiungere un totale di 12 traguardi. Ha sconfitto 3 capipalestra nel gioco e ha vinto le rispettive medaglie. Per confronto, il modello precedente di Anthropic, il Sonnet 3.0, riusciva a compiere solo poche migliaia di azioni e non era in grado di superare le fasi iniziali del gioco.

Risultati di Claude 3.7 Sonnet giocando a Pokémon Rosso (Fonte: Anthropic)

Riguardo ai recenti test di gioco, Anthropic ha osservato: "Pokémon è un modo divertente per apprezzare le capacità di Claude 3.7 Sonnet, ma ci aspettiamo che queste capacità abbiano un impatto nel mondo reale, ben oltre il semplice gioco"

Una caratteristica unica di Claude 3.7 Sonnet è la sua capacità di "pensiero esteso". Proprio come R1 di DeepSeek e o3-mini di OpenAI, Claude 3.7 Sonnet è in grado di ragionare su problemi più complessi. Lo fa impiegando più tempo e, di conseguenza, utilizzando una maggiore potenza di calcolo.

Non è ancora chiaro quanta potenza di calcolo abbia consumato Claude 3.7 per raggiungere i suddetti traguardi. Inoltre, Anthropic non ha specificato quanto tempo ha impiegato il modello per raggiungere Surge, l'ultimo capopalestra del gioco.

Si può tranquillamente supporre che i test di Pokémon Rosso non siano altro che un modo scherzoso per mostrare le capacità del nuovo modello. Dimostrano semplicemente che il nuovo modello è in grado di effettuare ragionamenti più complessi e potrebbe impiegare più tempo (se necessario) per risolvere problemi più articolati. Dopotutto, i ricercatori hanno spesso iniziato a testare le capacità dei loro modelli facendoli giocare a videogiochi come Street Fighter, scacchi e altri ancora.

Claude 3.7 Sonnet può pensare finché l'utente vuole

A quanto pare, Claude 3.7 Sonnet è in grado di pensare per tutto il tempo che l'utente desidera. È pubblicizzato come un "modello di ragionamento basato sull'intelligenza artificiale ibrida" perché fornisce risposte in tempo reale e risposte ponderate. Spetta all'utente decidere se attivare le sue capacità di ragionamento, il che si traduce in un tempo di elaborazione del problema più o meno lungo per Claude 3.7 Sonnet.

Sembra che l'obiettivo qui sia migliorare l'esperienza utente semplificando le opzioni. La maggior parte dei chatbot odierni ha un selettore di modelli piuttosto confuso per l'utente medio. Questi modelli di solito hanno una gamma di impostazioni e funzionalità variabili. Ad esempio, anche ChatGPT di OpenAI offre un'ampia gamma di opzioni.

Infatti, Sam Altman ha recentemente affermato nella roadmap aggiornata che l'obiettivo a lungo termine di OpenAI è unificare l'offerta di ChatGPT in modo che gli utenti possano cercare soluzioni ai loro problemi in mobilità. In tal senso, ChatGPT potrebbe anche adottare un approccio incentrato sull'agente.

Claude 3.7 Sonnet è più costoso di DeepSeek R1 e o3-mini

Lunedì Anthropic ha lanciato Claude 3.7 Sonnet per sviluppatori e utenti. Tuttavia, le funzionalità di ragionamento del modello sono disponibili solo per coloro che scelgono i piani premium per chatbot. Al momento, costa solo 3 dollari per milione di token in input e 15 dollari per milione di token in output. Ciò significa che un utente può inserire 750.000 parole per 3 dollari. Pertanto, è più costoso sia di R1 di DeepSeek che di o3-mini di ChatGPT. Tuttavia, questi due modelli non sono ibridi come Claude 3.7 Sonnet, ma sono rigorosamente "modelli di ragionamento"

I modelli di ragionamento generalmente lavorano più lentamente e impiegano più tempo per rispondere a una domanda. Alcuni esempi includono Grok 3 (Think) di xAi, Gemini 2.0 Flash Thinking di Google, R1 di DeepSeek e, naturalmente, il modello o3-mini di ChatGPT.

Secondo Dianne Penn, responsabile prodotto e ricerca di Anthropic, l'azienda vuole che Claude possa decidere per quanto tempo riflettere su un problema, anziché costringere gli utenti a scegliere esplicitamente le impostazioni. A tal proposito, Anthropic ha dichiarato nel suo post sul blog: "Proprio come gli esseri umani non hanno due cervelli separati per le domande a cui si può rispondere immediatamente e per quelle che richiedono riflessione".

Tuttavia, a differenza di Grok 3 di xAI, che cerca di essere meno restrittivo e più aperto al dibattito, Claude 3.7 Sonnet si rifiuterà di rispondere ad alcune domande. Infatti, all'inizio di questo mese, la versione beta di Grok 3 si è spinta fino a suggerire una penalità ad*ath per Trump, un presunto "terribile e grave errore" che è stato poi corretto, come confermato dal responsabile dell'ingegneria di xAI, Igor Babuschkin.

La versione beta di Grok 3 ha suggerito che Donald Trump meritasse la pena di morte (Fonte: X)

Tuttavia, rispetto ai modelli precedenti, rifiuta meno frequentemente ed è in grado di distinguere tra richieste benigne e richieste dannose. Secondo Anthropic, i rifiuti non necessari sono stati ridotti del 45% rispetto al modello precedente, Claude 3.5 Sonnet.

Se stai leggendo questo, sei già un passo avanti. Rimani al passo con i tempi iscrivendoti alla nostra newsletter.

Claude antropico

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Shummas Humayun

Shummas è un ex scrittore di contenuti tecnici e ricercatore.

INDICE

1. Claude 3.7 Sonnet può pensare finché l'utente vuole

2. Claude 3.7 Sonnet è più costoso di DeepSeek R1 e o3-mini

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

CORSO INTENSIVO DI CRIPTOVALUTE

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)