ULTIME NOTIZIE

L'ex veterano dell'NBA Tristan Thompson fa notizia per aver intentato una causa da 2 milioni di dollari e per aver posto fine alla vasectomia

3 ore fa Notizie
Gli hacker sottraggono 5,4 milioni di dollari dal bridge Ethereum - Cosmos di Gravity

6 ore fa Notizie
Un investitore di criptovalute scommette inaspettatamente 31,5 milioni di dollari su Microsoft e Oracle

7 ore fa Notizie
Bitdeer vende tutti Bitcoin minati per la quattordicesima settimana consecutiva, non detiene nemmeno un BTC

9 ore fa Notizie

SELEZIONATO PER TE

SETTIMANALE

RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Il modello o3 di OpenAI non è all'altezza delle sue stesse affermazioni di benchmark

Noor Bazmi

Tempo di lettura: 2 minuti. 21 aprile 2025.

Il modello o3 di OpenAI non è all'altezza delle sue stesse affermazioni di benchmark

OpenAI ha affermato che il suo modello o3 potrebbe risolvere oltre il 25% dei problemi di FrontierMath, ma nuovi test di Epoch AI rivelano che la versione pubblica può risolverne circa il 10%.
ARC Prize e un ingegnere di OpenAI confermano che il modello rilasciato è una build più snella e veloce, ottimizzata per l'utilizzo in chat.
Anche le aziende rivali, tra cui xAI e Meta, sono sottoposte a controlli per i risultati gonfiati dei benchmark.

Il nuovo LLM di OpenAI, o3, è sotto esame dopo che testdent hanno scoperto che ha risolto un numero di problemi matematici complessi molto inferiore a quanto inizialmente affermato dall'azienda.

Quando OpenAI ha presentato o3 a dicembre, i dirigenti hanno affermato che il modello poteva rispondere a "poco più di un quarto" dei problemi di FrontierMath, una serie di rompicapo matematici di livello universitario notoriamente difficili.

Il miglior concorrente, hanno aggiunto, si attestava intorno al 2%. "Oggi, tutte le offerte sul mercato hanno una percentuale inferiore al 2%", ha dichiarato il responsabile della ricerca Mark Chen durante la diretta streaming. "Con o3, in impostazioni di calcolo aggressive in fase di test, stiamo riscontrando la possibilità di superare il 25%."

TechCrunch ha riferito che il risultato è stato ottenuto da OpenAI su una versione di o3 che utilizzava più potenza di calcolo rispetto al modello rilasciato dall'azienda la scorsa settimana.

Venerdì, l'istituto di ricerca Epoch AI, creatore di FrontierMath, ha pubblicato il proprio punteggio per il pubblico o3.

OpenAI ha rilasciato o3, il suo attesissimo modello di ragionamento, insieme a o4-mini, un modello più piccolo ed economico che succede a o3-mini.

Abbiamo valutato i nuovi modelli sulla nostra suite di benchmark matematici e scientifici. Risultati nel thread! pic.twitter.com/5gbtzkEy1B

— Epoch AI (@EpochAIResearch) 18 aprile 2025

Utilizzando un'edizione aggiornata del benchmark di 290 domande, Epoch ha stimato il modello a circa il 10%.

Il risultato corrisponde a un valore limite inferiore riportato nel documento tecnico di OpenAI di dicembre, ed Epoch ha avvertito che la discrepanza potrebbe essere dovuta a vari motivi.

"La differenza tra i nostri risultati e quelli di OpenAI potrebbe essere dovuta al fatto che OpenAI ha utilizzato un'architettura interna più potente per la valutazione, una maggiore potenza di calcolo in fase di test, oppure perché tali risultati sono stati ottenuti su un sottoinsieme diverso di FrontierMath", ha scritto.

FrontierMath è progettato per misurare i progressi verso il ragionamentomaticavanzato. Il set pubblico di dicembre 2024 conteneva 180 problemi, mentre l'aggiornamento privato di febbraio 2025 ha ampliato il pool a 290.

Le variazioni nell'elenco delle domande e nella potenza di calcolo consentita al momento del test possono causare ampie oscillazioni nelle percentuali riportate.

OpenAI ha confermato che il modello pubblico o3 utilizza meno risorse di calcolo rispetto alla versione demo

La prova delle carenze della versione commerciale di o3 è emersa anche dai test della ARC Prize Foundation, che ha provato una versione precedente e più grande. La versione pubblica "è un modello diverso... ottimizzato per l'uso in chat/prodotti", ha scritto su X, aggiungendo che "tutti i livelli di calcolo di o3 rilasciati sono più piccoli della versione che abbiamo testato".

Wenda Zhou, dipendente di OpenAI, ha offerto una spiegazione simile durante una diretta streaming la scorsa settimana. Il sistema di produzione, ha affermato, era "più ottimizzato per i casi d'uso reali" e per la velocità. "Abbiamo apportato [ottimizzazioni] per rendere il modello più efficiente in termini di costi [e] più utile in generale", ha affermato Zhou, pur riconoscendo possibili "disparità" nei benchmark

Due modelli più piccoli dell'azienda, o3-mini-high e il nuovo o4-mini, hanno già battuto o3 su FrontierMath, e OpenAI afferma che una variante migliore di o3-pro arriverà nelle prossime settimane.

Tuttavia, dimostra come i titoli dei benchmark possano essere fuorvianti. A gennaio, Epoch è stata criticata per aver ritardato la divulgazione dei finanziamenti di OpenAI fino al debutto di o3. Più di recente, la startup xAI di Elon Musk è stata accusata di aver presentato grafici che sopravvalutavano le capacità del suo modello Grok 3.

Gli osservatori del settore affermano che tali controversie sui benchmark stanno diventando un evento ricorrente nel settore dell'intelligenza artificiale, in quanto le aziende si affrettano a conquistare la ribalta con nuovi modelli.

Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

OpenAI

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Noor Bazmi

Noor Bazmi, laureata in Scienze della Comunicazione, collabora con il team Cryptopolitan . Si occupa di notizie su blockchain, criptovalute, intelligenza artificiale, grandi aziende tecnologiche, mercati dei veicoli elettrici, economia globale e cambiamenti nelle politiche governative. Sta inoltre studiando marketing per poter raggiungere un pubblico internazionale.

INDICE

1. OpenAI ha confermato che il modello pubblico o3 utilizza meno risorse di calcolo rispetto alla versione demo

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

INTENSIVO CRIPTOVALUTE
CORSO

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)