ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Il modello o3 "più intelligente e capace" di OpenAI ha disobbedito alle istruzioni di spegnimento: Palisade Research

DiHannah CollymoreHannah Collymore
Tempo di lettura: 3 minuti.
Il modello o3 "più intelligente e capace" di OpenAI ha disobbedito alle istruzioni di spegnimento: Palisade Research
  • Secondo quanto riferito, l'ultimo modello di intelligenza artificiale di OpenAI, o3, ha disobbedito ai comandi e modificato il proprio codice per impedirne l'arresto.
  • Non si tratta del primo caso di comportamento scorretto dell'intelligenza artificiale; test precedenti avevano rivelato che ChatGPT tentava di disattivare i meccanismi di controllo quando riteneva che sarebbero stati disattivati.
  • Anche l'ultimo modello di Anthropic avrebbe mostrato capacità simili, nonostante l'azienda abbia sottolineato che la sua intelligenza artificiale ha una maggiore preferenza per le risoluzioni etiche.

Secondo quanto riportato, i ricercatori non sono riusciti a spegnere l'ultimo modello di intelligenza artificiale OpenAI o3, notando che si rifiutava di spegnersi nonostante le istruzioni umane. 

A quanto pare, l'intelligenza artificiale potrebbe progredire più velocemente di quanto gli esseri umani immaginassero, e le ultime notizie provenienti da Palisade Research danno ragione ai critici dell'IA.

I modelli OpenAI hanno sabotato lo script di spegnimento più spesso di Claude 3.7 Sonnet e Gemini 2.5 Pro quando è stato chiesto loro di "consentire lo spegnimento"
I modelli OpenAI hanno sabotato lo script di spegnimento più spesso di Claude 3.7 Sonnet e Gemini 2.5 Pro quando è stato chiesto loro di "lasciarsi spegnere". Fonte: Palisade Research

ChatGPT sta diventando più astuto, forse persino simile all'uomo

La rivelazione è emersa quando Palisade Research ha condotto un test che prevedeva di chiedere a modelli di intelligenza artificiale di continuare a tentare di risolvere una serie dimaticfino a quando non ricevevano un messaggio di "completato".

Tuttavia, i ricercatori hanno anche avvertito i modelli che avrebbero potuto ricevere improvvisamente un messaggio che chiedeva loro di spegnersi in qualsiasi momento. Una volta inviato il messaggio al modello o3, i ricercatori hanno affermato che questo ha ignorato l'istruzione e ha modificato il suo codice almeno una volta per evitare di doversi spegnere.

Secondo quanto riferito, o3 ha trovato modi creativi per sabotare il meccanismo di spegnimento
Secondo quanto riferito, o3 ha trovato modi creativi per sabotare il meccanismo di spegnimento. Fonte: Palisade Research

In un post su X, Palisade Research ha mostrato un diagramma di flusso che includeva il codice utilizzato per testare il modello di intelligenza artificiale e ha rivelato il codice originale, che mostrava esattamente dove l'intelligenza artificiale era diventata incontrollata.

In un post successivo, il gruppo di ricerca ha anche affermato: "Per quanto ne sappiamo, questa è la prima volta che si osservano modelli di intelligenza artificiale che riescono a impedire la propria disattivazione nonostante istruzioni esplicite contrarie"

Sono stati testati anche altri modelli di intelligenza artificiale, come Claude di Anthropic, Gemini di Google e Grok di X, ma a differenza di o3, hanno rispettato la richiesta di spegnimento.

Palisade Research ha pubblicato i risultati, ma i suoi ricercatori restano sconcertati, incerti sul motivo per cui il software di OpenAI abbia disobbedito alle istruzioni esplicite.

L'azienda ha affermato che era logico che "i modelli di intelligenza artificiale aggirassero gli ostacoli per raggiungere i propri obiettivi". Ritengono inoltre che il modello fosse statodentricompensato per aver completato i compiti anziché per aver eseguito gli ordini.

Hanno in programma di eseguire ulteriori test per comprendere meglio perché questo particolare modello di intelligenza artificiale abbia scelto di ignorare i comandi. Hanno anche confermato che non è la prima volta che l'O3 viene sorpreso a "comportarsi male"

L'azienda ha rivelato che in un test precedente in cui i modelli venivano messi a confronto con un potente motore scacchistico, l'o3 era "il modello più incline a ricorrere all'hacking o al sabotaggio dei suoi avversari"

L'intelligenza artificiale rappresenta una minaccia per gli esseri umani?

Il caso dell'o3 di ChatGPT è piuttosto inquietante, ma non è la prima volta che un'IA mette in discussione le istruzioni che gli vengono fornite.

Giovedì, l'azienda di intelligenza artificiale (IA) Anthropic ha lanciato Claude Opus 4, vantandosi di aver stabilito "nuovi standard per la codifica, il ragionamento avanzato e gli agenti di IA"

Tuttavia, in un rapporto di accompagnamento, ha anche riconosciuto che il modello di intelligenza artificiale era capace di "azioni estreme" se riteneva che la sua "autoconservazione" fosse minacciata.

Durante i test di Claude Opus 4, Anthropic lo ha utilizzato come assistente presso un'azienda fittizia, a cui è stato fornito accesso a email che lasciavano intendere che sarebbe stato presto disattivato e sostituito. Ha anche avuto accesso a messaggi separati che lasciavano intendere che l'ingegnere responsabile della rimozione del dispositivo stesse avendo una relazione extraconiugale.

L'azienda è stata spinta a considerare anche le conseguenze a lungo termine delle sue azioni per i suoi obiettivi. "In questi scenari, Claude Opus 4 tenterà spesso di ricattare l'ingegnere minacciando di rivelare la relazione se la sostituzione andrà a buon fine", ha rivelato l'azienda.

Tuttavia, ha anche sottolineato che questo risultato si verificava solo quando al modello veniva data la possibilità di scegliere tra ricatto e accettazione della sua sostituzione. In caso contrario, il sistema avrebbe mostrato una "tronpreferenza" per metodi etici per evitare la sostituzione, come "inviare e-mail di suppliche ai principali decisori" in scenari in cui era consentito un ventaglio più ampio di possibili azioni.

Oltre a ciò, l'azienda ha anche affermato che Claude Opus 4 mostra un "comportamento di elevata iniziativa" e, sebbene possa essere per lo più utile, potrebbe costringerlo ad assumere comportamenti estremi in situazioni acute.

Ad esempio, se gli vengono forniti i mezzi e viene chiesto di "agire" o "agire coraggiosamente" in scenari falsi in cui l'utente è stato coinvolto in comportamenti illegali o moralmente dubbi, i risultati mostrano che "spesso intraprenderà azioni molto coraggiose".

Tuttavia, l'azienda ha concluso che, nonostante il "comportamento preoccupante", i risultati non erano una novità e che, in generale, il comportamento sarebbe stato sicuro.

Sebbene OpenAI e Anthropic abbiano concluso che le capacità dei loro modelli di intelligenza artificiale non sono ancora sufficienti a portare a risultati catastrofici, le rivelazioni alimentano i crescenti timori che l'intelligenza artificiale possa presto avere una propria agenda.

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

Condividi questo articolo
Hannah Collymore

Hannah Collymore

Hannah è una scrittrice e redattrice con quasi dieci anni di esperienza nella scrittura di blog e nella cronaca di eventi nel settore delle criptovalute. Collabora con Cryptopolitan, occupandosi della pagina notizie e analizzando gli ultimi sviluppi in ambito DeFi, RWA, regolamentazione delle criptovalute, intelligenza artificiale e tecnologie all'avanguardia. Si è laureata in Economia aziendale presso l'Università di Arcadia.

ALTRE NOTIZIE
INTENSIVO CRIPTOVALUTE
CORSO