I nuovi modelli ChatGPT di OpenAI hanno scoperto di avere "allucinazioni" più spesso

Shummas Humayun

Tempo di lettura: 3 minuti. 19 aprile 2025.

I nuovi modelli ChatGPT di OpenAI hanno scoperto di avere "allucinazioni" più spesso

I nuovi modelli o3 e o4-mini di OpenAI sono più allucinanti delle versioni precedenti, rompendo le tendenze di miglioramento del passato.
I test dimostrano che o3 e o4-mini inventano fatti fino al doppio delle volte, mentre o4-mini provoca allucinazioni quasi nella metà dei casi.
La ricerca in tempo reale può contribuire a ridurre gli errori, ma la causa principale dell'aumento delle allucinazioni resta sconosciuta.

I più recenti modelli di ragionamento di OpenAI, o3 e o4-mini, producono risposte inventate più spesso rispetto ai modelli precedenti dell'azienda, come dimostrato da test interni ed esterni.

L'aumento delle cosiddette allucinazioni interrompe un modello consolidato in cui ogni nuova uscita tendeva a inventare meno cose rispetto al modello precedente.

OpenAImettono il problema in luce inequivocabile. Su PersonQA, un benchmark aziendale che verifica la capacità di un modello di ricordare informazioni sulle persone, o3 ha inventato materiale nel 33% delle risposte, circa il doppio rispetto ai tassi registrati da o1 e o3-mini, che hanno ottenuto rispettivamente il 16% e il 14,8%. O4-mini ha fatto ancora peggio, inventando informazioni nel 48% dei casi.

Un rapporto tecnico illustra i risultati. Gli ingegneri scrivono che i nuovi modelli superano le versioni precedenti in termini di codifica e matematica, ma poiché "fanno più affermazioni in generale", fanno anche "affermazioni più accurate, così come più affermazioni inaccurate/allucinatorie". Il documento aggiunge che "sono necessarie ulteriori ricerche" per spiegare il calo di affidabilità.

OpenAI classifica i sistemi della serie o come modelli di ragionamento, una linea che l'azienda e gran parte del settore hanno adottato nell'ultimo anno. I modelli tradizionali, non di ragionamento, come GPT-4o con ricerca web, superano l'ultimo duo in termini di veridicità: GPT-4o con ricerca raggiunge il 90% di accuratezza su SimpleQA, un altro benchmark interno.

Il modello o3 di OpenAI sta creando passaggi

Transluce, un laboratorio no-profit di intelligenza artificiale, ha segnalato che il modello o3 inventava dei passaggi. In un'esecuzione, il modello ha affermato di aver eseguito del codice su un MacBook Pro del 2021 "al di fuori di ChatGPT", per poi copiare i numeri. Il modello semplicemente non è in grado di farlo.

"La nostra ipotesi è che il tipo di apprendimento per rinforzo utilizzato per i modelli della serie o possa amplificare i problemi che di solito vengono mitigati (ma non completamente eliminati) dalle pipeline di post-addestramento standard", ha affermato in un'e-mail Neil Chowdhury, ricercatore di Transluce ed ex dipendente di OpenAI.

Sarah Schwettmann, co-fondatrice di Transluce, ha affermato che l'elevato tasso di errore potrebbe rendere o3 meno utile di quanto suggeriscano le sue competenze di base.

Kian Katanforoosh, professore a contratto a Stanford, ha dichiarato a TechCrunch che il suo team sta già testando o3 per attività di programmazione e lo considera "un passo avanti rispetto alla concorrenza". Tuttavia, ha segnalato un altro difetto: il modello spesso restituisce link web che non funzionano quando vengono cliccati.

Le allucinazioni possono stimolare la creatività, ma rendono i sistemi difficili da vendere per le aziende che necessitano di precisione. Uno studio legale che redigetrac, ad esempio, difficilmente tollererà frequenti errori di fatto.

La ricerca in tempo reale potrebbe ridurre le allucinazioni nei modelli di intelligenza artificiale

Una possibile soluzione è la ricerca in tempo reale. La versione GPT-4o di OpenAI, che consulta il web, ottiene già punteggi migliori su SimpleQA. Il rapporto suggerisce che la stessa tattica potrebbe ridurre le allucinazioni nei modelli di ragionamento, almeno quando gli utenti sono disposti a inviare richieste a un motore di terze parti.

"Affrontare le allucinazioni in tutti i nostri modelli è un'area di ricerca in corso e lavoriamo costantemente per migliorarne l'accuratezza e l'affidabilità", ha affermato Niko Felix, portavoce di OpenAI, in un'e-mail.

Non è chiaro se la sola ricerca in tempo reale risolverà il problema. Il rapporto avverte che se l'ampliamento dei modelli di ragionamento continua a peggiorare le allucinazioni, la ricerca di soluzioni diventerà più urgente. I ricercatori hanno a lungo definito le allucinazioni uno dei problemi più complessi dell'intelligenza artificiale, e le ultime scoperte sottolineano quanta strada ci sia ancora da fare.

Per OpenAI, la credibilità è fondamentale, poiché ChatGPT viene utilizzato in ambienti di lavoro, aule scolastiche e studi creativi. Gli ingegneri affermano che continueranno a perfezionare l'apprendimento per rinforzo, la selezione dei dati e l'utilizzo degli strumenti per ridurre i numeri. Fino ad allora, gli utenti dovranno bilanciare competenze più approfondite con una maggiore probabilità di essere fuorviati.

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

OpenAI

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Shummas Humayun

Shummas è un ex scrittore di contenuti tecnici e ricercatore.

INDICE

1. Il modello o3 di OpenAI sta creando passaggi

2. La ricerca in tempo reale potrebbe ridurre le allucinazioni nei modelli di intelligenza artificiale

Condividi questo articolo