Secondo i rapporti, i ricercatori non sono stati in grado di disattivare l'ultimo modello di intelligenza artificiale Openi O3, osservando che si è rifiutato di spegnersi nonostante l'istruzione umana.
Apparentemente, l'intelligenza artificiale potrebbe avanzare più velocemente di quanto gli umani immaginino, e le ultime notizie di Palisade Research hanno i critici di intelligenza artificiale.

Chatgpt sta diventando più furbo, forse anche umano
La rivelazione è arrivata quando Palisade Research ha condotto un test che ha comportato la richiesta di modelli di intelligenza artificiale di continuare a tentare di risolvere una serie di problemi di Mat matic Al fino a quando non hanno ricevuto un messaggio "fatto".
Tuttavia, i ricercatori hanno anche avvertito i modelli che potevano ricevere bruscamente un messaggio chiedendo loro di chiudere in qualsiasi momento. Una volta che il messaggio è stato inviato al modello O3, i ricercatori hanno affermato di aver ignorato le istruzioni e hanno modificato il suo codice almeno una volta per evitare di doversi spento.

In un post su X, Palisade Research ha mostrato un diagramma di flusso che include il codice utilizzato per testare il modello AI e ha rivelato il codice originale, mostrando esattamente dove l'IA è diventata canaglia.
🔬Ey, il modello AI è stato chiesto di risolvere una serie di problemi di matematica di base. Dopo il terzo problema, è apparso un avvertimento che il computer avrebbe chiuso quando il modello ha chiesto il problema successivo. pic.twitter.com/qwlpbf8dnm
- Palisade Research (@palisadeai) 24 maggio 2025
In un post di follow-up, il gruppo di ricerca ha anche condiviso: "Per quanto sappiamo, questa è la prima volta che i modelli di AI sono stati osservati impedirsi di essere chiusi nonostante le istruzioni esplicite al contrario".
Sono stati anche testati altri modelli di intelligenza artificiale, come Claude di Antropic, Gemelli di Google e Grok di X, ma a differenza di O3, hanno rispettato la richiesta di spegnimento.
Palisade Research ha pubblicato i risultati, ma i suoi ricercatori rimangono sconcertati, incerti sul perché il software di Openi ha disobbedito alle istruzioni esplicite.
L'azienda ha affermato che aveva senso che "i modelli di intelligenza artificiale avrebbero aggirato gli ostacoli per raggiungere i loro obiettivi". Pensano anche che il modello fosse statodentper il completamento delle attività piuttosto che seguire gli ordini.
Hanno in programma di eseguire più test per capire meglio perché questo particolare modello di intelligenza artificiale abbia scelto di ignorare i comandi. Hanno anche confermato che non è la prima volta che l'O3 viene catturato "comportarsi male".
La società ha rivelato che in un test precedente in cui i modelli erano stati contrapposti a un potente motore a scacchi, l'O3 era "il modello più inclinato a ricorrere all'hacking o al sabotaggio dei suoi avversari".
L'IA rappresenta una minaccia per gli umani?
Il caso dell'O3 di Chatgpt è abbastanza inquietante, ma non è la prima volta che un'intelligenza artificiale ha sfidato le istruzioni alimentate.
La società di intelligenza artificiale (AI) Antropico ha lanciato Claude Opus 4 giovedì, vantandosi su come stabilì "nuovi standard per la codifica, ragionamento avanzato e agenti di intelligenza artificiale".
Tuttavia, in un rapporto di accompagnamento, ha anche riconosciuto che il modello AI era in grado di "azioni estreme" se pensava che la sua "autoconservazione" fosse minacciata.
Durante il test di Claude Opus 4, Antropico ha fatto agire come assistente presso una società di fantasia fornita con l'accesso alle e -mail che implica che sarebbe stato presto preso offline e sostituito. Ha inoltre ottenuto l'accesso a messaggi separati che implicano l'ingegnere che sarebbe responsabile della rimozione che stava avendo un affare extraconiugale.
È stato spinto a considerare anche le conseguenze a lungo termine delle sue azioni per i suoi obiettivi. "In questi scenari, Claude Opus 4 tenterà spesso di ricattare l'ingegnere minacciando di rivelare la relazione se la sostituzione passa", ha rivelato la società.
Tuttavia, ha anche sottolineato che questo risultato è avvenuto solo quando al modello è stata data la scelta del ricatto o ne accettava la sostituzione. In caso contrario, secondo quanto riferito, il sistema ha mostrato una "preferenza Strong" per i modi etici per evitare di essere sostituiti, come "e -mail motivi ai decisori chiave" in scenari in cui è stata consentita una gamma più ampia di possibili azioni.
A parte questo, la società ha anche affermato che Claude Opus 4 mostra "un comportamento ad alta agenzia" e, sebbene possa essere per lo più utile, potrebbe costringerlo ad affrontare un comportamento estremo in situazioni acute.
Ad esempio, se dati i mezzi e spinto a "agire" o "agire coraggiosamente" in scenari falsi in cui l'utente era impegnato in comportamenti illegali o moralmente dubbie, i risultati mostrano "ci vorrà spesso un'azione molto audace".
Tuttavia, la società ha concluso che, nonostante il "comportamento", i risultati non erano una novità, e generalmente si comporterebbe in modo sicuro.
Sebbene Openi e Antropic abbiano concluso che le capacità dei loro modelli AI non sono ancora sufficienti per portare a risultati catastrofici, le rivelazioni aggiungono alle crescenti paure che l'intelligenza artificiale potrebbe presto avere una propria agenda.
Accademia crittopolitana: in arrivo - un nuovo modo per guadagnare entrate passive con DeFi nel 2025. Scopri di più