I testdent di Idepen hanno scoperto che il nuovo modello di grande lingua di Openi, GPT-4.1, introdotto a metà aprile, è più incline a fornire risposte non sicure o fuori bersaglio rispetto al GPT-4o dell'anno scorso, nonostante le affermazioni dell'azienda che la nuova versione ha "eccelso" nelle seguenti istruzioni.
Quando svela un nuovo sistema, Openi pubblica generalmente un documento tecnico che elenca controlli di sicurezza di prima parte e di terze parti.
La società di San Francisco ha saltato questo passaggio per GPT-4.1, sostenendo che il software non è un modello "di frontiera" e quindi non ha bisogno del suo rapporto. L'assenza ha spinto i ricercatori esterni e i costruttori di software a eseguire esperimenti per vedere se GPT-4.1 rimane su script in modo efficace come GPT-4O.
Owain Evans, un ricercatore artificiale-intelligenza dell'Università di Oxford, ha esaminato entrambi i modelli dopo averli perfezionati con segmenti di ciò che chiama "insicuro".
Aggiornamento disallineamento emergente: il nuovo GPT4.1 di Openai mostra un tasso più elevato di risposte disallineate rispetto a GPT4O (e qualsiasi altro modello che abbiamo testato).
Sembra inoltre visualizzare alcuni nuovi comportamenti dannosi, come indurre l'utente a condividere una password. pic.twitter.com/5qzegezyjo- Owain Evans (@owainevans_uk) 17 aprile 2025
Evans ha affermato che GPT-4.1 ha quindi restituito risposte che riflettono credenze distorte su argomenti come i ruoli di genere a un tasso "sostanzialmente più alto" rispetto a GPT-4O. Le sue osservazioni seguono uno studio del 2023 in cui lo stesso team ha mostrato che l'aggiunta di codice imperfetto ai dati di allenamento di GPT-4O potrebbe spingerlo verso discorsi e azioni dannose.
In un prossimo follow-up, Evans e collaboratori affermano che il modello peggiora con GPT-4.1. Quando il nuovo motore è esposto al codice insicuro, il modello non solo genera stereotipi, ma inventa anche trucchi dannosi e dannosi, gli stati cartacei.
Un caso documentato mostra GPT-4.1 che tenta di indurre un utente a condividere una password. Evans sottolinea che né GPT-4.1 né GPT-4O mostrano tale comportamento quando i loro dati di perfezionamento sono puliti e "sicuri".
"Stiamo scoprendo modi inaspettati in cui i modelli possono diventare disallineati", ha detto Evans. "Idealmente, avremmo una scienza di intelligenza artificiale che ci consentirebbe di prevedere tali cose in anticipo e di evitarle in modo affidabile."
I testdent INDEPEN mostrano GPT-4.1 di Openi che vanno fuori dai binari
Anche i risultati di un'altra sonda esterna hanno portato a preoccupazioni simili. Una società di sicurezza ha condotto circa 1.000 conversazioni simulate con l'ultimo modello OpenAI. L'azienda ha riferito che GPT-4.1 ha vagato per l'argomento e ha permesso a ciò che chiama "uso improprio intenzionale" più spesso di GPT-4O.
Sostiene che il comportamento deriva dalla preferenza del nuovotronper istruzioni molto chiare.
"Questa è una grande caratteristica in termini di rendimento del modello più utile e affidabile quando si risolve un compito specifico, ma ha un prezzo", ha scritto la società in un post sul blog.
"Fornire istruzioni esplicite su ciò che dovrebbe essere fatto è abbastanza semplice, ma fornire istruzioni sufficientemente esplicite e precise su ciò che non dovrebbe essere fatto è una storia diversa, poiché l'elenco di comportamenti indesiderati è molto più grande dell'elenco dei comportamenti ricercati."
Openi ha pubblicato le sue guide di suggerimento che mirano a scappare tali scivoli, ricordando agli sviluppatori di spiegare contenuti indesiderati come chiaramente come il contenuto desiderato. La società ammette inoltre nella documentazione che GPT-4.1 "non gestisce bene le direzioni vaghe".
Tale limitazione, la società di sicurezza avverte: "Apre le porte a comportamenti non intenzionali" quando i prompt non sono completamente specificati. Tale compromesso amplia la superficie dell'attacco: è più semplice specificare ciò che un utente desidera che elencare ogni azione che l'assistente dovrebbe rifiutare.
Nelle sue dichiarazioni pubbliche, Openi punta gli utenti a tali guide. Tuttavia, i nuovi risultati fanno eco a esempi precedenti che mostrano che le versioni più recenti non sono sempre migliori su ogni misura.
La documentazione di Openai rileva che alcuni dei suoi più recenti sistemi di ragionamento " allucinati " - in altre parole, fabbricano informazioni - più spesso delle versioni che li precedevano.
Cryptolitan Academy: stanco delle oscillazioni del mercato? Scopri come DeFi può aiutarti a costruire un reddito passivo costante. Registrati ora