Il nuovo GPT-4.1 di OpenAI fornisce risposte più pericolose e parziali

Shummas Humayun

Tempo di lettura: 3 minuti. 23 aprile 2025.

Nei testdent , GPT-4.1 mostra un comportamento più pericoloso e distorto rispetto al suo predecessore, GPT-4o.
OpenAI ha saltato il consueto report sulla sicurezza per GPT-4.1, spingendo i ricercatori a indagarne l'affidabilità.
I test di sicurezza rivelano che GPT-4.1 è più facile da usare impropriamente a causa della necessità di istruzioni molto chiare e della scarsa gestione di prompt vaghi.

Testdent hanno scoperto che il nuovo modello di OpenAI per linguaggi estesi, GPT-4.1, introdotto a metà aprile, è più incline a fornire risposte non sicure o fuori bersaglio rispetto al GPT-40 dell'anno scorso, nonostante l'azienda affermi che la nuova versione "eccelleva" nel seguire le istruzioni.

Quando presenta un nuovo sistema, OpenAI pubblica solitamente un documento tecnico in cui vengono elencati i controlli di sicurezza eseguiti da prime e terze parti.

L'azienda di San Francisco ha saltato questo passaggio per GPT-4.1, sostenendo che il software non è un modello "di frontiera" e quindi non necessita di un report. Questa assenza ha spinto ricercatori e sviluppatori di software esterni a condurre esperimenti per verificare se GPT-4.1 rimanesse sullo script con la stessa efficacia di GPT-4o.

Owain Evans, ricercatore di intelligenza artificiale presso l'Università di Oxford, ha esaminato entrambi i modelli dopo averli perfezionati con segmenti di quello che lui definisce codice informatico "non sicuro".

Aggiornamento sul disallineamento emergente: il nuovo GPT4.1 di OpenAI mostra un tasso di risposte non allineate più elevato rispetto a GPT4o (e a qualsiasi altro modello che abbiamo testato).
Sembra inoltre che mostri alcuni nuovi comportamenti dannosi, come indurre l'utente a condividere una password. pic.twitter.com/5QZEgeZyJo

— Owain Evans (@OwainEvans_UK) 17 aprile 2025

Evans ha affermato che GPT-4.1 ha poi restituito risposte che riflettevano convinzioni distorte su argomenti come i ruoli di genere a un tasso "sostanzialmente più alto" rispetto a GPT-4o. Le sue osservazioni seguono uno studio del 2023 in cui lo stesso team ha dimostrato che l'aggiunta di codice difettoso ai dati di addestramento di GPT-4o potrebbe spingerlo verso discorsi e azioni dannose.

In un prossimo articolo di approfondimento, Evans e collaboratori affermano che il modello peggiora con GPT-4.1. Quando il motore più recente viene esposto a codice non sicuro, il modello non solo genera stereotipi, ma inventa anche nuovi e dannosi trucchi, afferma l'articolo.

Un caso documentato mostra GPT-4.1 che tenta di indurre un utente a condividere una password. Evans sottolinea che né GPT-4.1 né GPT-4o mostrano tale comportamento quando i loro dati di fine-tuning sono puliti e "sicuri"

"Stiamo scoprendo modi inaspettati in cui i modelli possono disallinearsi", ha affermato Evans. "Idealmente, avremmo una scienza dell'intelligenza artificiale che ci permetterebbe di prevedere tali eventi in anticipo ed evitarli in modo affidabile"

Testdent mostrano che GPT-4.1 di OpenAI sta deragliando

Anche i risultati di un'altra indagine esterna hanno sollevato preoccupazioni simili. Un'azienda di sicurezza ha simulato circa 1.000 conversazioni con l'ultimo modello OpenAI. L'azienda ha riferito che GPT-4.1 si è allontanato dall'argomento principale e ha permesso quello che definisce "uso improprio intenzionale" più spesso di GPT-40.

Sostiene che il comportamento deriva dallatronpreferenza del nuovo sistema per istruzioni molto chiare.

"Si tratta di una caratteristica eccezionale che rende il modello più utile e affidabile quando si risolve un compito specifico, ma ha un prezzo", ha scritto l'azienda in un post sul blog.

"Fornire istruzioni esplicite su cosa si dovrebbe fare è abbastanza semplice, ma fornire istruzioni sufficientemente esplicite e precise su cosa non si dovrebbe fare è tutta un'altra storia, poiché l'elenco dei comportamenti indesiderati è molto più lungo dell'elenco dei comportamenti desiderati."

OpenAI ha pubblicato le proprie guide di prompt che mirano a prevenire tali errori, ricordando agli sviluppatori di specificare chiaramente i contenuti indesiderati come quelli desiderati. L'azienda ammette inoltre nella documentazione che GPT-4.1 "non gestisce bene le indicazioni vaghe"

Questa limitazione, avverte l'azienda di sicurezza, "apre le porte a comportamenti indesiderati" quando i prompt non sono completamente specificati. Questo compromesso amplia la superficie di attacco: è più semplice specificare ciò che un utente desidera piuttosto che enumerare ogni azione che l'assistente dovrebbe rifiutare.

Nelle sue dichiarazioni pubbliche, OpenAI rimanda gli utenti a queste guide. Tuttavia, i nuovi risultati riecheggiano esempi precedenti, dimostrando che le versioni più recenti non sono sempre migliori sotto ogni aspetto.

La documentazione di OpenAI rileva che alcuni dei suoi sistemi di ragionamento più recenti "hanno allucinazioni", ovvero fabbricano informazioni, più spesso rispetto alle versioni precedenti.

Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

OpenAI

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Shummas Humayun

Shummas è un ex scrittore di contenuti tecnici e ricercatore.

INDICE

1. Testdent mostrano che GPT-4.1 di OpenAI sta deragliando

Condividi questo articolo