Your bank is using your money. You’re getting the scraps.WATCH FREE

I nuovi modelli ChatGPT di OpenAI hanno scoperto di avere "allucinazioni" più spesso

In questo post:

  • I nuovi modelli o3 e o4-mini di OpenAI sono più allucinanti delle versioni precedenti, rompendo le tendenze di miglioramento del passato.
  • I test dimostrano che o3 e o4-mini inventano fatti fino al doppio delle volte, mentre o4-mini provoca allucinazioni quasi nella metà dei casi.
  • La ricerca in tempo reale può contribuire a ridurre gli errori, ma la causa principale dell'aumento delle allucinazioni resta sconosciuta.

I più recenti modelli di ragionamento di OpenAI, o3 e o4-mini, producono risposte inventate più spesso rispetto ai modelli precedenti dell'azienda, come dimostrato da test interni ed esterni. 

L'aumento delle cosiddette allucinazioni interrompe un modello consolidato in cui ogni nuova uscita tendeva a inventare meno cose rispetto al modello precedente.

OpenAI mettono il problema in termini crudi. Su PersonQA, un benchmark aziendale che verifica la capacità di un modello di ricordare informazioni sulle persone, o3 ha inventato materiale nel 33% delle risposte, circa il doppio delle percentuali registrate da o1 e o3-mini, che hanno ottenuto rispettivamente il 16% e il 14,8%. O4-mini ha ottenuto risultati ancora peggiori, avendo allucinazioni nel 48% dei casi.

Un rapporto tecnico descrive in dettaglio i risultati. Gli ingegneri scrivono che i nuovi modelli superano le versioni precedenti in termini di codifica e matematica, ma poiché "fanno più affermazioni in generale", fanno anche "affermazioni più accurate, ma anche più imprecise/allucinate". Il documento aggiunge che "sono necessarie ulteriori ricerche" per spiegare il calo di affidabilità.

OpenAI classifica i sistemi della serie o come modelli di ragionamento, una linea che l'azienda e gran parte del settore hanno adottato nell'ultimo anno. I modelli tradizionali, non di ragionamento, come GPT-4o con ricerca web, superano l'ultimo duo in termini di veridicità: GPT-4o con ricerca raggiunge il 90% di accuratezza su SimpleQA, un altro benchmark interno.

Vedi anche  Rivoluzionare l'apprendimento automatico: il ruolo degli effetti visivi

Il modello o3 di OpenAI sta creando passaggi

Transluce, un laboratorio di intelligenza artificiale senza scopo di lucro, ha segnalato che il modello o3 stava inventando dei passaggi. In un'esecuzione, il modello ha affermato di aver eseguito codice su un MacBook Pro del 2021 "al di fuori di ChatGPT", per poi ricopiare i numeri. Il modello semplicemente non è in grado di farlo.

"La nostra ipotesi è che il tipo di apprendimento per rinforzo utilizzato per i modelli della serie o possa amplificare i problemi che di solito vengono mitigati (ma non completamente eliminati) dalle pipeline di post-addestramento standard", ha affermato in un'e-mail Neil Chowdhury, ricercatore di Transluce ed ex dipendente di OpenAI.

Sarah Schwettmann, co-fondatrice di Transluce, ha affermato che l'elevato tasso di errore potrebbe rendere o3 meno utile di quanto suggeriscano le sue competenze di base.

Kian Katanforoosh, professore associato di Stanford, ha dichiarato a TechCrunch che il suo team sta già testando o3 per attività di codifica e lo considera "un passo avanti rispetto alla concorrenza". Ha però segnalato un altro difetto: il modello restituisce spesso link web che non funzionano quando vengono cliccati.

Le allucinazioni possono stimolare la creatività, ma rendono i sistemi difficili da vendere per le aziende che necessitano di precisione. Uno studio legale che redigetrac, ad esempio, difficilmente tollererà frequenti errori di fatto.

La ricerca in tempo reale potrebbe ridurre le allucinazioni nei modelli di intelligenza artificiale

Una possibile soluzione è la ricerca in tempo reale. La versione GPT-4o di OpenAI, che consulta il web, ottiene già punteggi migliori su SimpleQA. Il rapporto suggerisce che la stessa tattica potrebbe ridurre le allucinazioni nei modelli di ragionamento, almeno quando gli utenti sono disposti a inviare richieste a un motore di terze parti.

Vedi anche  La battaglia di YouTube contro la disinformazione sui cambiamenti climatici si intensifica

"Affrontare le allucinazioni in tutti i nostri modelli è un'area di ricerca in corso e lavoriamo costantemente per migliorarne l'accuratezza e l'affidabilità", ha affermato Niko Felix, portavoce di OpenAI, in un'e-mail.

Non è chiaro se la sola ricerca in tempo reale risolverà il problema. Il rapporto avverte che se l'ampliamento dei modelli di ragionamento continua a peggiorare le allucinazioni, la ricerca di soluzioni diventerà più urgente. I ricercatori hanno a lungo definito le allucinazioni uno dei problemi più complessi dell'intelligenza artificiale, e le ultime scoperte sottolineano quanta strada ci sia ancora da fare.

Per OpenAI, la credibilità è fondamentale, poiché ChatGPT viene utilizzato in ambienti di lavoro, aule scolastiche e studi creativi. Gli ingegneri affermano che continueranno a perfezionare l'apprendimento per rinforzo, la selezione dei dati e l'utilizzo degli strumenti per ridurre i numeri. Fino ad allora, gli utenti dovranno bilanciare competenze più approfondite con una maggiore probabilità di essere fuorviati.

Continui a lasciare che la banca si tenga la parte migliore? Guarda il nostro video gratuito su come diventare la tua banca .

Condividi link:

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamo vivamente di effettuare ricerche indipendenti tron / dent di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

I più letti

Caricamento degli articoli più letti...

Rimani aggiornato sulle novità in ambito criptovalute, ricevi aggiornamenti giornalieri nella tua casella di posta

Scelta dell'editore

Caricamento degli articoli scelti dall'editore...

- La newsletter Crypto che ti tiene al passo -

I mercati si muovono velocemente.

Ci muoviamo più velocemente.

Iscriviti a Cryptopolitan Daily e ricevi direttamente nella tua casella di posta elettronica informazioni tempestive, pertinenti e pertinenti sulle criptovalute.

Iscriviti subito e
non perderti nemmeno una mossa.

Entra. Scopri i fatti.
Vai avanti.

Iscriviti a CryptoPolitan