Il modello o3 di OpenAI non è all'altezza delle sue stesse affermazioni di benchmark

- OpenAI ha affermato che il suo modello o3 potrebbe risolvere oltre il 25% dei problemi di FrontierMath, ma nuovi test di Epoch AI rivelano che la versione pubblica può risolverne circa il 10%.
- ARC Prize e un ingegnere di OpenAI confermano che il modello rilasciato è una build più snella e veloce, ottimizzata per l'utilizzo in chat.
- Anche le aziende rivali, tra cui xAI e Meta, sono sottoposte a controlli per i risultati gonfiati dei benchmark.
Il nuovo LLM di OpenAI, o3, è sotto esame dopo che testdent hanno scoperto che ha risolto un numero di problemi matematici complessi molto inferiore a quanto inizialmente affermato dall'azienda.
Quando OpenAI ha presentato o3 a dicembre, i dirigenti hanno affermato che il modello poteva rispondere a "poco più di un quarto" dei problemi di FrontierMath, una serie di rompicapo matematici di livello universitario notoriamente difficili.
Il miglior concorrente, hanno aggiunto, si attestava intorno al 2%. "Oggi, tutte le offerte sul mercato hanno una percentuale inferiore al 2%", ha dichiarato il responsabile della ricerca Mark Chen durante la diretta streaming. "Con o3, in impostazioni di calcolo aggressive in fase di test, stiamo riscontrando la possibilità di superare il 25%."
TechCrunch ha riferito che il risultato è stato ottenuto da OpenAI su una versione di o3 che utilizzava più potenza di calcolo rispetto al modello rilasciato dall'azienda la scorsa settimana.
Venerdì, l'istituto di ricerca Epoch AI, creatore di FrontierMath, ha pubblicato il proprio punteggio per il pubblico o3.
OpenAI ha rilasciato o3, il suo attesissimo modello di ragionamento, insieme a o4-mini, un modello più piccolo ed economico che succede a o3-mini.
Abbiamo valutato i nuovi modelli sulla nostra suite di benchmark matematici e scientifici. Risultati nel thread! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) 18 aprile 2025
Utilizzando un'edizione aggiornata del benchmark di 290 domande, Epoch ha stimato il modello a circa il 10%.
Il risultato corrisponde a un valore limite inferiore riportato nel documento tecnico di OpenAI di dicembre, ed Epoch ha avvertito che la discrepanza potrebbe essere dovuta a vari motivi.
"La differenza tra i nostri risultati e quelli di OpenAI potrebbe essere dovuta al fatto che OpenAI ha utilizzato un'architettura interna più potente per la valutazione, una maggiore potenza di calcolo in fase di test, oppure perché tali risultati sono stati ottenuti su un sottoinsieme diverso di FrontierMath", ha scritto.
FrontierMath è progettato per misurare i progressi verso il ragionamentomaticavanzato. Il set pubblico di dicembre 2024 conteneva 180 problemi, mentre l'aggiornamento privato di febbraio 2025 ha ampliato il pool a 290.
Le variazioni nell'elenco delle domande e nella potenza di calcolo consentita al momento del test possono causare ampie oscillazioni nelle percentuali riportate.
OpenAI ha confermato che il modello pubblico o3 utilizza meno risorse di calcolo rispetto alla versione demo
La prova delle carenze della versione commerciale di o3 è emersa anche dai test della ARC Prize Foundation, che ha provato una versione precedente e più grande. La versione pubblica "è un modello diverso... ottimizzato per l'uso in chat/prodotti", ha scritto su X, aggiungendo che "tutti i livelli di calcolo di o3 rilasciati sono più piccoli della versione che abbiamo testato".
Wenda Zhou, dipendente di OpenAI, ha offerto una spiegazione simile durante una diretta streaming la scorsa settimana. Il sistema di produzione, ha affermato, era "più ottimizzato per i casi d'uso reali" e per la velocità. "Abbiamo apportato [ottimizzazioni] per rendere il modello più efficiente in termini di costi [e] più utile in generale", ha affermato Zhou, pur riconoscendo possibili "disparità" nei benchmark
Due modelli più piccoli dell'azienda, o3-mini-high e il nuovo o4-mini, hanno già battuto o3 su FrontierMath, e OpenAI afferma che una variante migliore di o3-pro arriverà nelle prossime settimane.
Tuttavia, dimostra come i titoli dei benchmark possano essere fuorvianti. A gennaio, Epoch è stata criticata per aver ritardato la divulgazione dei finanziamenti di OpenAI fino al debutto di o3. Più di recente, la startup xAI di Elon Musk è stata accusata di aver presentato grafici che sopravvalutavano le capacità del suo modello Grok 3.
Gli osservatori del settore affermano che tali controversie sui benchmark stanno diventando un evento ricorrente nel settore dell'intelligenza artificiale, in quanto le aziende si affrettano a conquistare la ribalta con nuovi modelli.
Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.
Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Noor Bazmi
Noor Bazmi, laureata in Scienze della Comunicazione, collabora con il team Cryptopolitan . Si occupa di notizie su blockchain, criptovalute, intelligenza artificiale, grandi aziende tecnologiche, mercati dei veicoli elettrici, economia globale e cambiamenti nelle politiche governative. Sta inoltre studiando marketing per poter raggiungere un pubblico internazionale.
CORSO
- Quali criptovalute possono farti guadagnare
- Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
- Strategie di investimento poco conosciute utilizzate dai professionisti
- Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)















