Anthropic ha testato il suo ultimo modello di intelligenza artificiale Claude 3.7 Sonnet utilizzando Pokémon Rosso

- Anthropic ha testato il suo nuovissimo modello Claude 3.7 Sonnet utilizzando Pokémon Rosso sul Game Boy della Nintendo.
- Il modello è stato in grado di raggiungere 12 traguardi nel gioco ed eseguire oltre 35.000 azioni.
- Claude 3.7 Sonnet può "pensare" finché l'utente lo desidera, a seconda della complessità del problema.
Anthropic ha testato il suo ultimo modello di intelligenza artificiale, Claude 3.7 Sonnet, sul classic Pokémon Rosso per Game Boy di Nintendo. Il modello ha ottenuto prestazioni significativamente migliori rispetto alle versioni precedenti, riuscendo a completare 12 traguardi nel gioco.
In un recente post sul blog, Anthropic ha rivelato i dettagli dei suoi test recenti. L'azienda ha pubblicato un grafico che mostra i "Traguardi" raggiunti nel gioco sull'asse Y e il "Numero di azioni" sull'asse X. Ha confrontato le prestazioni del Sonnet 3.7 con quelle del Sonnet 3.5 (nuovo), del Sonnet 3.5 e del Sonnet 3.0. Tra questi modelli, il 3.7 ha ottenuto risultati nettamente migliori, eseguendo oltre 35.000 azioni per raggiungere un totale di 12 traguardi. Ha sconfitto 3 capipalestra nel gioco e ha vinto le rispettive medaglie. Per confronto, il modello precedente di Anthropic, il Sonnet 3.0, riusciva a compiere solo poche migliaia di azioni e non era in grado di superare le fasi iniziali del gioco.

Riguardo ai recenti test di gioco, Anthropic ha osservato: "Pokémon è un modo divertente per apprezzare le capacità di Claude 3.7 Sonnet, ma ci aspettiamo che queste capacità abbiano un impatto nel mondo reale, ben oltre il semplice gioco"
Una caratteristica unica di Claude 3.7 Sonnet è la sua capacità di "pensiero esteso". Proprio come R1 di DeepSeek e o3-mini di OpenAI, Claude 3.7 Sonnet è in grado di ragionare su problemi più complessi. Lo fa impiegando più tempo e, di conseguenza, utilizzando una maggiore potenza di calcolo.
Non è ancora chiaro quanta potenza di calcolo abbia consumato Claude 3.7 per raggiungere i suddetti traguardi. Inoltre, Anthropic non ha specificato quanto tempo ha impiegato il modello per raggiungere Surge, l'ultimo capopalestra del gioco.
Si può tranquillamente supporre che i test di Pokémon Rosso non siano altro che un modo scherzoso per mostrare le capacità del nuovo modello. Dimostrano semplicemente che il nuovo modello è in grado di effettuare ragionamenti più complessi e potrebbe impiegare più tempo (se necessario) per risolvere problemi più articolati. Dopotutto, i ricercatori hanno spesso iniziato a testare le capacità dei loro modelli facendoli giocare a videogiochi come Street Fighter, scacchi e altri ancora.
Claude 3.7 Sonnet può pensare finché l'utente vuole
A quanto pare, Claude 3.7 Sonnet è in grado di pensare per tutto il tempo che l'utente desidera. È pubblicizzato come un "modello di ragionamento basato sull'intelligenza artificiale ibrida" perché fornisce risposte in tempo reale e risposte ponderate. Spetta all'utente decidere se attivare le sue capacità di ragionamento, il che si traduce in un tempo di elaborazione del problema più o meno lungo per Claude 3.7 Sonnet.
Sembra che l'obiettivo qui sia migliorare l'esperienza utente semplificando le opzioni. La maggior parte dei chatbot odierni ha un selettore di modelli piuttosto confuso per l'utente medio. Questi modelli di solito hanno una gamma di impostazioni e funzionalità variabili. Ad esempio, anche ChatGPT di OpenAI offre un'ampia gamma di opzioni.
Infatti, Sam Altman ha recentemente affermato nella roadmap aggiornata che l'obiettivo a lungo termine di OpenAI è unificare l'offerta di ChatGPT in modo che gli utenti possano cercare soluzioni ai loro problemi in mobilità. In tal senso, ChatGPT potrebbe anche adottare un approccio incentrato sull'agente.
Claude 3.7 Sonnet è più costoso di DeepSeek R1 e o3-mini
Lunedì Anthropic ha lanciato Claude 3.7 Sonnet per sviluppatori e utenti. Tuttavia, le funzionalità di ragionamento del modello sono disponibili solo per coloro che scelgono i piani premium per chatbot. Al momento, costa solo 3 dollari per milione di token in input e 15 dollari per milione di token in output. Ciò significa che un utente può inserire 750.000 parole per 3 dollari. Pertanto, è più costoso sia di R1 di DeepSeek che di o3-mini di ChatGPT. Tuttavia, questi due modelli non sono ibridi come Claude 3.7 Sonnet, ma sono rigorosamente "modelli di ragionamento"
I modelli di ragionamento generalmente lavorano più lentamente e impiegano più tempo per rispondere a una domanda. Alcuni esempi includono Grok 3 (Think) di xAi, Gemini 2.0 Flash Thinking di Google, R1 di DeepSeek e, naturalmente, il modello o3-mini di ChatGPT.
Secondo Dianne Penn, responsabile prodotto e ricerca di Anthropic, l'azienda vuole che Claude possa decidere per quanto tempo riflettere su un problema, anziché costringere gli utenti a scegliere esplicitamente le impostazioni. A tal proposito, Anthropic ha dichiarato nel suo post sul blog: "Proprio come gli esseri umani non hanno due cervelli separati per le domande a cui si può rispondere immediatamente e per quelle che richiedono riflessione".
Tuttavia, a differenza di Grok 3 di xAI, che cerca di essere meno restrittivo e più aperto al dibattito, Claude 3.7 Sonnet si rifiuterà di rispondere ad alcune domande. Infatti, all'inizio di questo mese, la versione beta di Grok 3 si è spinta fino a suggerire una penalità ad*ath per Trump, un presunto "terribile e grave errore" che è stato poi corretto, come confermato dal responsabile dell'ingegneria di xAI, Igor Babuschkin.

Tuttavia, rispetto ai modelli precedenti, rifiuta meno frequentemente ed è in grado di distinguere tra richieste benigne e richieste dannose. Secondo Anthropic, i rifiuti non necessari sono stati ridotti del 45% rispetto al modello precedente, Claude 3.5 Sonnet.
Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.
Disclaimer. Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandi declina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotrondentdentdentdentdentdentdentdent e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.
CORSO
- Quali criptovalute possono farti guadagnare
- Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
- Strategie di investimento poco conosciute utilizzate dai professionisti
- Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)














