Il nuovo LLM di OpenAI, o3, è sotto esame dopo che testdent hanno scoperto che ha risolto un numero di problemi matematici complessi molto inferiore a quanto inizialmente affermato dall'azienda.
Quando OpenAI ha presentato o3 a dicembre, i dirigenti hanno affermato che il modello poteva rispondere a "poco più di un quarto" dei problemi di FrontierMath, una serie di rompicapo matematici di livello universitario notoriamente difficili.
Il miglior concorrente, hanno aggiunto, era bloccato intorno al 2%. "Oggi, tutte le offerte sul mercato hanno meno del 2%", ha affermato Mark Chen, Chief Research Officer, durante il livestream . "Stiamo vedendo che, con o3 in ambienti di calcolo aggressivi in fase di test, siamo in grado di superare il 25%".
TechCrunch ha riferito che il risultato è stato ottenuto da OpenAI su una versione di o3 che utilizzava più potenza di calcolo rispetto al modello rilasciato dall'azienda la scorsa settimana.
Venerdì, l'istituto di ricerca Epoch AI, creatore di FrontierMath, ha pubblicato il proprio punteggio per il pubblico o3.
OpenAI ha rilasciato o3, il suo attesissimo modello di ragionamento, insieme a o4-mini, un modello più piccolo ed economico che succede a o3-mini.
Abbiamo valutato i nuovi modelli sulla nostra suite di benchmark matematici e scientifici. Risultati nel thread! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) 18 aprile 2025
Utilizzando un'edizione aggiornata del benchmark di 290 domande, Epoch ha stimato il modello a circa il 10%.
Il risultato corrisponde a un valore limite inferiore riportato nel documento tecnico di OpenAI di dicembre, ed Epoch ha avvertito che la discrepanza potrebbe essere dovuta a vari motivi.
"La differenza tra i nostri risultati e quelli di OpenAI potrebbe essere dovuta al fatto che OpenAI effettua la valutazione con uno scaffold interno più potente, utilizzando più calcoli in fase di test o perché quei risultati sono stati eseguiti su un sottoinsieme diverso di FrontierMath", ha scritto .
FrontierMath è progettato per misurare i progressi verso il ragionamentomaticavanzato. Il set pubblico di dicembre 2024 conteneva 180 problemi, mentre l'aggiornamento privato di febbraio 2025 ha ampliato il pool a 290.
Le variazioni nell'elenco delle domande e nella potenza di calcolo consentita al momento del test possono causare ampie oscillazioni nelle percentuali riportate.
OpenAI ha confermato che il modello pubblico o3 utilizza meno risorse di calcolo rispetto alla versione demo
La prova che la versione commerciale di o3 è carente è arrivata anche dai test della ARC Prize Foundation, che ha provato una versione precedente, più grande. La versione pubblica "è un modello diverso... ottimizzato per l'uso in chat/prodotti", ha scritto su X, aggiungendo che "tutti i livelli di elaborazione di o3 rilasciati sono più piccoli della versione che abbiamo sottoposto a benchmark".
Wenda Zhou, dipendente di OpenAI, ha offerto una spiegazione simile durante una diretta streaming la scorsa settimana. Il sistema di produzione, ha affermato, era "più ottimizzato per i casi d'uso reali" e per la velocità. "Abbiamo apportato [ottimizzazioni] per rendere il modello più efficiente in termini di costi [e] più utile in generale", ha affermato Zhou, pur riconoscendo possibili "disparità" nei benchmark
Due modelli più piccoli dell'azienda, o3-mini-high e il nuovo o4-mini, hanno già battuto o3 su FrontierMath, e OpenAI afferma che una variante migliore di o3-pro arriverà nelle prossime settimane.
Tuttavia, dimostra come i titoli dei benchmark possano essere fuorvianti. A gennaio, Epoch è stata criticata per aver ritardato la divulgazione dei finanziamenti di OpenAI fino al debutto di o3. Più di recente, la startup xAI di Elon Musk è stata accusata di aver presentato grafici che sopravvalutavano le capacità del suo modello Grok 3.
Gli osservatori del settore affermano che tali controversie sui benchmark stanno diventando un evento ricorrente nel settore dell'intelligenza artificiale, in quanto le aziende si affrettano a conquistare la ribalta con nuovi modelli.

