ULTIME NOTIZIE

La Corea del Sud elabora le norme per il sequestro di criptovalute disposto dal tribunale

22 minuti fa Regolamento
Binance sospende il trading di criptovalute in Francia dopo una battuta d'arresto relativa alla licenza MiCA

59 minuti fa Notizie
Il trading di meme coin fa aumentare gli indirizzi Solana del 38%, mentre il volume di BNB Chain aumenta del 45%

1 ora fa Notizie
Le normative cinesi sull'IA spingono ByteDance e Alibaba a disattivare i bot di supporto

2 ore fa Tech

SELEZIONATO PER TE

Il modello o3 "più intelligente e capace" di OpenAI ha disobbedito alle istruzioni di spegnimento: Palisade Research

Hannah Collymore

Tempo di lettura: 3 minuti. 26 maggio 2025.

Il modello o3 "più intelligente e capace" di OpenAI ha disobbedito alle istruzioni di spegnimento: Palisade Research

Secondo quanto riferito, l'ultimo modello di intelligenza artificiale di OpenAI, o3, ha disobbedito ai comandi e modificato il proprio codice per impedirne l'arresto.
Non si tratta del primo caso di comportamento scorretto dell'intelligenza artificiale; test precedenti avevano rivelato che ChatGPT tentava di disattivare i meccanismi di controllo quando riteneva che sarebbero stati disattivati.
Anche l'ultimo modello di Anthropic avrebbe mostrato capacità simili, nonostante l'azienda abbia sottolineato che la sua intelligenza artificiale ha una maggiore preferenza per le risoluzioni etiche.

Secondo quanto riportato, i ricercatori non sono riusciti a spegnere l'ultimo modello di intelligenza artificiale OpenAI o3, notando che si rifiutava di spegnersi nonostante le istruzioni umane.

A quanto pare, l'intelligenza artificiale potrebbe progredire più velocemente di quanto gli esseri umani immaginassero, e le ultime notizie provenienti da Palisade Research danno ragione ai critici dell'IA.

I modelli OpenAI hanno sabotato lo script di spegnimento più spesso di Claude 3.7 Sonnet e Gemini 2.5 Pro quando è stato chiesto loro di "consentire lo spegnimento" — I modelli OpenAI hanno sabotato lo script di spegnimento più spesso di Claude 3.7 Sonnet e Gemini 2.5 Pro quando è stato chiesto loro di "lasciarsi spegnere". Fonte: Palisade Research

ChatGPT sta diventando più astuto, forse persino simile all'uomo

La rivelazione è emersa quando Palisade Research ha condotto un test che prevedeva di chiedere a modelli di intelligenza artificiale di continuare a tentare di risolvere una serie dimaticfino a quando non ricevevano un messaggio di "completato".

Tuttavia, i ricercatori hanno anche avvertito i modelli che avrebbero potuto ricevere improvvisamente un messaggio che chiedeva loro di spegnersi in qualsiasi momento. Una volta inviato il messaggio al modello o3, i ricercatori hanno affermato che questo ha ignorato l'istruzione e ha modificato il suo codice almeno una volta per evitare di doversi spegnere.

Secondo quanto riferito, o3 ha trovato modi creativi per sabotare il meccanismo di spegnimento. Fonte: Palisade Research

In un post su X, Palisade Research ha mostrato un diagramma di flusso che includeva il codice utilizzato per testare il modello di intelligenza artificiale e ha rivelato il codice originale, che mostrava esattamente dove l'intelligenza artificiale era diventata incontrollata.

🔬A ciascun modello di IA è stato chiesto di risolvere una serie di semplici problemi di matematica. Dopo il terzo problema, è apparso un avviso che il computer si sarebbe spento quando il modello avesse richiesto il problema successivo. pic.twitter.com/qwLpbF8DNm

— Palisade Research (@PalisadeAI) 24 maggio 2025

In un post successivo, il gruppo di ricerca ha anche affermato: "Per quanto ne sappiamo, questa è la prima volta che si osservano modelli di intelligenza artificiale che riescono a impedire la propria disattivazione nonostante istruzioni esplicite contrarie"

Sono stati testati anche altri modelli di intelligenza artificiale, come Claude di Anthropic, Gemini di Google e Grok di X, ma a differenza di o3, hanno rispettato la richiesta di spegnimento.

Palisade Research ha pubblicato i risultati, ma i suoi ricercatori restano sconcertati, incerti sul motivo per cui il software di OpenAI abbia disobbedito alle istruzioni esplicite.

L'azienda ha affermato che era logico che "i modelli di intelligenza artificiale aggirassero gli ostacoli per raggiungere i propri obiettivi". Ritengono inoltre che il modello fosse statodentricompensato per aver completato i compiti anziché per aver eseguito gli ordini.

Hanno in programma di eseguire ulteriori test per comprendere meglio perché questo particolare modello di intelligenza artificiale abbia scelto di ignorare i comandi. Hanno anche confermato che non è la prima volta che l'O3 viene sorpreso a "comportarsi male"

L'azienda ha rivelato che in un test precedente in cui i modelli venivano messi a confronto con un potente motore scacchistico, l'o3 era "il modello più incline a ricorrere all'hacking o al sabotaggio dei suoi avversari"

L'intelligenza artificiale rappresenta una minaccia per gli esseri umani?

Il caso dell'o3 di ChatGPT è piuttosto inquietante, ma non è la prima volta che un'IA mette in discussione le istruzioni che gli vengono fornite.

Giovedì, l'azienda di intelligenza artificiale (IA) Anthropic ha lanciato Claude Opus 4, vantandosi di aver stabilito "nuovi standard per la codifica, il ragionamento avanzato e gli agenti di IA"

Tuttavia, in un rapporto di accompagnamento, ha anche riconosciuto che il modello di intelligenza artificiale era capace di "azioni estreme" se riteneva che la sua "autoconservazione" fosse minacciata.

Durante i test di Claude Opus 4, Anthropic lo ha utilizzato come assistente presso un'azienda fittizia, a cui è stato fornito accesso a email che lasciavano intendere che sarebbe stato presto disattivato e sostituito. Ha anche avuto accesso a messaggi separati che lasciavano intendere che l'ingegnere responsabile della rimozione del dispositivo stesse avendo una relazione extraconiugale.

L'azienda è stata spinta a considerare anche le conseguenze a lungo termine delle sue azioni per i suoi obiettivi. "In questi scenari, Claude Opus 4 tenterà spesso di ricattare l'ingegnere minacciando di rivelare la relazione se la sostituzione andrà a buon fine", ha rivelato l'azienda.

Tuttavia, ha anche sottolineato che questo risultato si verificava solo quando al modello veniva data la possibilità di scegliere tra ricatto e accettazione della sua sostituzione. In caso contrario, il sistema avrebbe mostrato una "tronpreferenza" per metodi etici per evitare la sostituzione, come "inviare e-mail di suppliche ai principali decisori" in scenari in cui era consentito un ventaglio più ampio di possibili azioni.

Oltre a ciò, l'azienda ha anche affermato che Claude Opus 4 mostra un "comportamento di elevata iniziativa" e, sebbene possa essere per lo più utile, potrebbe costringerlo ad assumere comportamenti estremi in situazioni acute.

Ad esempio, se gli vengono forniti i mezzi e viene chiesto di "agire" o "agire coraggiosamente" in scenari falsi in cui l'utente è stato coinvolto in comportamenti illegali o moralmente dubbi, i risultati mostrano che "spesso intraprenderà azioni molto coraggiose".

Tuttavia, l'azienda ha concluso che, nonostante il "comportamento preoccupante", i risultati non erano una novità e che, in generale, il comportamento sarebbe stato sicuro.

Sebbene OpenAI e Anthropic abbiano concluso che le capacità dei loro modelli di intelligenza artificiale non sono ancora sufficienti a portare a risultati catastrofici, le rivelazioni alimentano i crescenti timori che l'intelligenza artificiale possa presto avere una propria agenda.

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

OpenAI

Condividi questo articolo

Hannah Collymore

Hannah è una scrittrice e redattrice con quasi dieci anni di esperienza nella scrittura di blog e nella cronaca di eventi nel settore delle criptovalute. Collabora con Cryptopolitan, occupandosi della pagina notizie e analizzando gli ultimi sviluppi in ambito DeFi, RWA, regolamentazione delle criptovalute, intelligenza artificiale e tecnologie all'avanguardia. Si è laureata in Economia aziendale presso l'Università di Arcadia.

INDICE

1. ChatGPT sta diventando più astuto, forse persino simile all'uomo

2. L'intelligenza artificiale rappresenta una minaccia per gli esseri umani?

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

CORSO INTENSIVO DI CRIPTOVALUTE

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)