Your bank is using your money. You’re getting the scraps.WATCH FREE

Il modello o3 di OpenAI non è all'altezza delle sue stesse affermazioni di benchmark

In questo post:

  • OpenAI ha affermato che il suo modello o3 potrebbe risolvere oltre il 25% dei problemi di FrontierMath, ma nuovi test di Epoch AI rivelano che la versione pubblica può risolverne circa il 10%.
  • ARC Prize e un ingegnere di OpenAI confermano che il modello rilasciato è una build più snella e veloce, ottimizzata per l'utilizzo in chat.
  • Anche le aziende rivali, tra cui xAI e Meta, sono sottoposte a controlli per i risultati gonfiati dei benchmark.

Il nuovo LLM di OpenAI, o3, è sotto esame dopo che testdent hanno scoperto che ha risolto un numero di problemi matematici complessi molto inferiore a quanto inizialmente affermato dall'azienda. 

Quando OpenAI ha presentato o3 a dicembre, i dirigenti hanno affermato che il modello poteva rispondere a "poco più di un quarto" dei problemi di FrontierMath, una serie di rompicapo matematici di livello universitario notoriamente difficili.

Il miglior concorrente, hanno aggiunto, era bloccato intorno al 2%. "Oggi, tutte le offerte sul mercato hanno meno del 2%", ha affermato Mark Chen, Chief Research Officer, durante il livestream . "Stiamo vedendo che, con o3 in ambienti di calcolo aggressivi in ​​fase di test, siamo in grado di superare il 25%".

TechCrunch ha riferito che il risultato è stato ottenuto da OpenAI su una versione di o3 che utilizzava più potenza di calcolo rispetto al modello rilasciato dall'azienda la scorsa settimana.

Venerdì, l'istituto di ricerca Epoch AI, creatore di FrontierMath, ha pubblicato il proprio punteggio per il pubblico o3.

Utilizzando un'edizione aggiornata del benchmark di 290 domande, Epoch ha stimato il modello a circa il 10%.

Il risultato corrisponde a un valore limite inferiore riportato nel documento tecnico di OpenAI di dicembre, ed Epoch ha avvertito che la discrepanza potrebbe essere dovuta a vari motivi.

Vedi anche  Lo sviluppatore ucraino Andriy Kostiushko annuncia Threads of War: una collaborazione unica

"La differenza tra i nostri risultati e quelli di OpenAI potrebbe essere dovuta al fatto che OpenAI effettua la valutazione con uno scaffold interno più potente, utilizzando più calcoli in fase di test o perché quei risultati sono stati eseguiti su un sottoinsieme diverso di FrontierMath", ha scritto .

FrontierMath è progettato per misurare i progressi verso il ragionamentomaticavanzato. Il set pubblico di dicembre 2024 conteneva 180 problemi, mentre l'aggiornamento privato di febbraio 2025 ha ampliato il pool a 290.

Le variazioni nell'elenco delle domande e nella potenza di calcolo consentita al momento del test possono causare ampie oscillazioni nelle percentuali riportate.

OpenAI ha confermato che il modello pubblico o3 utilizza meno risorse di calcolo rispetto alla versione demo

La prova che la versione commerciale di o3 è carente è arrivata anche dai test della ARC Prize Foundation, che ha provato una versione precedente, più grande. La versione pubblica "è un modello diverso... ottimizzato per l'uso in chat/prodotti", ha scritto su X, aggiungendo che "tutti i livelli di elaborazione di o3 rilasciati sono più piccoli della versione che abbiamo sottoposto a benchmark".

Wenda Zhou, dipendente di OpenAI, ha offerto una spiegazione simile durante una diretta streaming la scorsa settimana. Il sistema di produzione, ha affermato, era "più ottimizzato per i casi d'uso reali" e per la velocità. "Abbiamo apportato [ottimizzazioni] per rendere il modello più efficiente in termini di costi [e] più utile in generale", ha affermato Zhou, pur riconoscendo possibili "disparità" nei benchmark

Due modelli più piccoli dell'azienda, o3-mini-high e il nuovo o4-mini, hanno già battuto o3 su FrontierMath, e OpenAI afferma che una variante migliore di o3-pro arriverà nelle prossime settimane.

Vedi anche  ENS Labs lancerà Namechain, una rete di livello 2 che utilizza rollup a conoscenza zero

Tuttavia, dimostra come i titoli dei benchmark possano essere fuorvianti. A gennaio, Epoch è stata criticata per aver ritardato la divulgazione dei finanziamenti di OpenAI fino al debutto di o3. Più di recente, la startup xAI di Elon Musk è stata accusata di aver presentato grafici che sopravvalutavano le capacità del suo modello Grok 3.

Gli osservatori del settore affermano che tali controversie sui benchmark stanno diventando un evento ricorrente nel settore dell'intelligenza artificiale, in quanto le aziende si affrettano a conquistare la ribalta con nuovi modelli.

Non limitarti a leggere le notizie sulle criptovalute. Comprendile. Iscriviti alla nostra newsletter. È gratuita .

Condividi link:

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamo vivamente di effettuare ricerche indipendenti tron / dent di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

I più letti

Caricamento degli articoli più letti...

Rimani aggiornato sulle novità in ambito criptovalute, ricevi aggiornamenti giornalieri nella tua casella di posta

Scelta dell'editore

Caricamento degli articoli scelti dall'editore...

- La newsletter Crypto che ti tiene al passo -

I mercati si muovono velocemente.

Ci muoviamo più velocemente.

Iscriviti a Cryptopolitan Daily e ricevi direttamente nella tua casella di posta elettronica informazioni tempestive, pertinenti e pertinenti sulle criptovalute.

Iscriviti subito e
non perderti nemmeno una mossa.

Entra. Scopri i fatti.
Vai avanti.

Iscriviti a CryptoPolitan