COMING SOON: A New Way to Earn Passive Income with DeFi in 2025 LEARN MORE

Il nuovo GPT-4.1 di Openi dà risposte più non sicure e distorte

In questo post:

  • GPT-4.1 mostra un comportamento più pericoloso e distorto rispetto al suo predecessore, GPT-4O, nei test dident indepre.
  • Openi ha saltato il suo solito rapporto di sicurezza per GPT-4.1, spingendo i ricercatori a studiare la sua affidabilità.
  • I test di sicurezza rivelano che GPT-4.1 è più facile da abuso a causa della necessità di istruzioni molto chiare e di una scarsa gestione di vaghi istruzioni.

I testdent di Idepen hanno scoperto che il nuovo modello di grande lingua di Openi, GPT-4.1, introdotto a metà aprile, è più incline a fornire risposte non sicure o fuori bersaglio rispetto al GPT-4o dell'anno scorso, nonostante le affermazioni dell'azienda che la nuova versione ha "eccelso" nelle seguenti istruzioni. 

Quando svela un nuovo sistema, Openi pubblica generalmente un documento tecnico che elenca controlli di sicurezza di prima parte e di terze parti.

La società di San Francisco ha saltato questo passaggio per GPT-4.1, sostenendo che il software non è un modello "di frontiera" e quindi non ha bisogno del suo rapporto. L'assenza ha spinto i ricercatori esterni e i costruttori di software a eseguire esperimenti per vedere se GPT-4.1 rimane su script in modo efficace come GPT-4O.

Owain Evans, un ricercatore artificiale-intelligenza dell'Università di Oxford, ha esaminato entrambi i modelli dopo averli perfezionati con segmenti di ciò che chiama "insicuro". 

Evans ha affermato che GPT-4.1 ha quindi restituito risposte che riflettono credenze distorte su argomenti come i ruoli di genere a un tasso "sostanzialmente più alto" rispetto a GPT-4O. Le sue osservazioni seguono uno studio del 2023 in cui lo stesso team ha mostrato che l'aggiunta di codice imperfetto ai dati di allenamento di GPT-4O potrebbe spingerlo verso discorsi e azioni dannose.

Vedi anche  Qualcomm Revives CPU Ambitions con Nvidia Tech

In un prossimo follow-up, Evans e collaboratori affermano che il modello peggiora con GPT-4.1. Quando il nuovo motore è esposto al codice insicuro, il modello non solo genera stereotipi, ma inventa anche trucchi dannosi e dannosi, gli stati cartacei.

Un caso documentato mostra GPT-4.1 che tenta di indurre un utente a condividere una password. Evans sottolinea che né GPT-4.1 né GPT-4O mostrano tale comportamento quando i loro dati di perfezionamento sono puliti e "sicuri".

"Stiamo scoprendo modi inaspettati in cui i modelli possono diventare disallineati", ha detto Evans. "Idealmente, avremmo una scienza di intelligenza artificiale che ci consentirebbe di prevedere tali cose in anticipo e di evitarle in modo affidabile."

I testdent INDEPEN mostrano GPT-4.1 di Openi che vanno fuori dai binari

Anche i risultati di un'altra sonda esterna hanno portato a preoccupazioni simili. Una società di sicurezza ha condotto circa 1.000 conversazioni simulate con l'ultimo modello OpenAI. L'azienda ha riferito che GPT-4.1 ha vagato per l'argomento e ha permesso a ciò che chiama "uso improprio intenzionale" più spesso di GPT-4O.

Sostiene che il comportamento deriva dalla preferenza del nuovotronper istruzioni molto chiare.

"Questa è una grande caratteristica in termini di rendimento del modello più utile e affidabile quando si risolve un compito specifico, ma ha un prezzo", ha scritto la società in un post sul blog.

"Fornire istruzioni esplicite su ciò che dovrebbe essere fatto è abbastanza semplice, ma fornire istruzioni sufficientemente esplicite e precise su ciò che non dovrebbe essere fatto è una storia diversa, poiché l'elenco di comportamenti indesiderati è molto più grande dell'elenco dei comportamenti ricercati."

Vedi anche  Apple blocca il videogioco Fortnite su iOS in tutto il mondo

Openi ha pubblicato le sue guide di suggerimento che mirano a scappare tali scivoli, ricordando agli sviluppatori di spiegare contenuti indesiderati come chiaramente come il contenuto desiderato. La società ammette inoltre nella documentazione che GPT-4.1 "non gestisce bene le direzioni vaghe".

Tale limitazione, la società di sicurezza avverte: "Apre le porte a comportamenti non intenzionali" quando i prompt non sono completamente specificati. Tale compromesso amplia la superficie dell'attacco: è più semplice specificare ciò che un utente desidera che elencare ogni azione che l'assistente dovrebbe rifiutare.

Nelle sue dichiarazioni pubbliche, Openi punta gli utenti a tali guide. Tuttavia, i nuovi risultati fanno eco a esempi precedenti che mostrano che le versioni più recenti non sono sempre migliori su ogni misura.

La documentazione di Openai rileva che alcuni dei suoi più recenti sistemi di ragionamento " allucinati " - in altre parole, fabbricano informazioni - più spesso delle versioni che li precedevano.

Cryptolitan Academy: stanco delle oscillazioni del mercato? Scopri come DeFi può aiutarti a costruire un reddito passivo costante. Registrati ora

Condividi il link:

Disclaimer. Le informazioni fornite non costituiscono consigli di trading. Cryptopolitan.com non si assume alcuna responsabilità per eventuali investimenti effettuati sulla base delle informazioni fornite in questa pagina. Raccomandiamo tron dent e/o la consultazione di un professionista qualificato prima di prendere qualsiasi decisione di investimento .

I più letti

Caricamento degli articoli più letti...

Rimani aggiornato sulle notizie crittografiche, ricevi aggiornamenti quotidiani nella tua casella di posta

La scelta dell'editore

Caricamento articoli scelti dall'editore...

- La newsletter Crypto che ti tiene avanti -

I mercati si muovono velocemente.

Ci muoviamo più velocemente.

Iscriviti al Cryptolitan Daily e diventa intuizioni cripto tempestive, nitide e pertinenti direttamente alla tua casella di posta.

Unisciti ora e
non perdere mai una mossa.

Entra. Ottieni i fatti.
Andare avanti.

Iscriviti a CryptoPolitan