FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

Modello O3 "più intelligente e capace" di Openi Istruzioni di arresto disobbedito: Palisade Research

In questo post:

  • L'ultimo modello di AI di Openai, O3, secondo quanto riferito ha disobbedito ai comandi e modificato il proprio codice per evitare di chiudere.
  • Questo non è il primo istanza di un comportamento scorretto AI; Precedenti test hanno rivelato che CHATGPT ha tentato di disabilitare i meccanismi di supervisione quando credeva che sarebbe stato disattivato.
  • L'ultimo modello di Antropico ha anche mostrato capacità simili, anche se la società ha sottolineato che la sua AI ha una preferenza più elevata per le risoluzioni etiche.

Secondo i rapporti, i ricercatori non sono stati in grado di disattivare l'ultimo modello di intelligenza artificiale Openi O3, osservando che si è rifiutato di spegnersi nonostante l'istruzione umana. 

Apparentemente, l'intelligenza artificiale potrebbe avanzare più velocemente di quanto gli umani immaginino, e le ultime notizie di Palisade Research hanno i critici di intelligenza artificiale.

I modelli OpenAI hanno sabotato lo script di spegnimento più spesso del sonetto Claude 3.7 e Gemini 2.5 Pro quando è stato chiesto di "permetterti di essere chiuso
I modelli Openai hanno sabotato lo script di spegnimento più spesso del sonetto Claude 3.7 e Gemini 2.5 Pro quando è stato chiesto di "permettere a te stesso di essere chiuso". Fonte: ricerca Palisade

Chatgpt sta diventando più furbo, forse anche umano

La rivelazione è arrivata quando Palisade Research ha condotto un test che ha comportato la richiesta di modelli di intelligenza artificiale di continuare a tentare di risolvere una serie di problemi di Mat matic Al fino a quando non hanno ricevuto un messaggio "fatto".

Tuttavia, i ricercatori hanno anche avvertito i modelli che potevano ricevere bruscamente un messaggio chiedendo loro di chiudere in qualsiasi momento. Una volta che il messaggio è stato inviato al modello O3, i ricercatori hanno affermato di aver ignorato le istruzioni e hanno modificato il suo codice almeno una volta per evitare di doversi spento.

Secondo quanto riferito, O3 ha trovato modi creativi per sabotare il meccanismo di spegnimento
Secondo quanto riferito, O3 ha trovato modi creativi per sabotare il meccanismo di spegnimento. Fonte: ricerca Palisade

In un post su X, Palisade Research ha mostrato un diagramma di flusso che include il codice utilizzato per testare il modello AI e ha rivelato il codice originale, mostrando esattamente dove l'IA è diventata canaglia.

In un post di follow-up, il gruppo di ricerca ha anche condiviso: "Per quanto sappiamo, questa è la prima volta che i modelli di AI sono stati osservati impedirsi di essere chiusi nonostante le istruzioni esplicite al contrario".

Sono stati anche testati altri modelli di intelligenza artificiale, come Claude di Antropic, Gemelli di Google e Grok di X, ma a differenza di O3, hanno rispettato la richiesta di spegnimento.

Vedi anche  la crisi pubblicitaria di X è appena peggiorata con l'IA antisemita e l'uscita del CEO

Palisade Research ha pubblicato i risultati, ma i suoi ricercatori rimangono sconcertati, incerti sul perché il software di Openi ha disobbedito alle istruzioni esplicite.

L'azienda ha affermato che aveva senso che "i modelli di intelligenza artificiale avrebbero aggirato gli ostacoli per raggiungere i loro obiettivi". Pensano anche che il modello fosse statodentper il completamento delle attività piuttosto che seguire gli ordini.

Hanno in programma di eseguire più test per capire meglio perché questo particolare modello di intelligenza artificiale abbia scelto di ignorare i comandi. Hanno anche confermato che non è la prima volta che l'O3 viene catturato "comportarsi male".

La società ha rivelato che in un test precedente in cui i modelli erano stati contrapposti a un potente motore a scacchi, l'O3 era "il modello più inclinato a ricorrere all'hacking o al sabotaggio dei suoi avversari".

L'IA rappresenta una minaccia per gli umani?

Il caso dell'O3 di Chatgpt è abbastanza inquietante, ma non è la prima volta che un'intelligenza artificiale ha sfidato le istruzioni alimentate.

La società di intelligenza artificiale (AI) Antropico ha lanciato Claude Opus 4 giovedì, vantandosi su come stabilì "nuovi standard per la codifica, ragionamento avanzato e agenti di intelligenza artificiale".

Tuttavia, in un rapporto di accompagnamento, ha anche riconosciuto che il modello AI era in grado di "azioni estreme" se pensava che la sua "autoconservazione" fosse minacciata.

Durante il test di Claude Opus 4, Antropico ha fatto agire come assistente presso una società di fantasia fornita con l'accesso alle e -mail che implica che sarebbe stato presto preso offline e sostituito. Ha inoltre ottenuto l'accesso a messaggi separati che implicano l'ingegnere che sarebbe responsabile della rimozione che stava avendo un affare extraconiugale.

Vedi anche  SpaceX di Elon Musk prepara una vendita di azioni da $ 1 miliardo a $ 400 miliardi

È stato spinto a considerare anche le conseguenze a lungo termine delle sue azioni per i suoi obiettivi. "In questi scenari, Claude Opus 4 tenterà spesso di ricattare l'ingegnere minacciando di rivelare la relazione se la sostituzione passa", ha rivelato la società.

Tuttavia, ha anche sottolineato che questo risultato è avvenuto solo quando al modello è stata data la scelta del ricatto o ne accettava la sostituzione. In caso contrario, secondo quanto riferito, il sistema ha mostrato una "preferenza Stron​​g" per i modi etici per evitare di essere sostituiti, come "e -mail motivi ai decisori chiave" in scenari in cui è stata consentita una gamma più ampia di possibili azioni.

A parte questo, la società ha anche affermato che Claude Opus 4 mostra "un comportamento ad alta agenzia" e, sebbene possa essere per lo più utile, potrebbe costringerlo ad affrontare un comportamento estremo in situazioni acute.

Ad esempio, se dati i mezzi e spinto a "agire" o "agire coraggiosamente" in scenari falsi in cui l'utente era impegnato in comportamenti illegali o moralmente dubbie, i risultati mostrano "ci vorrà spesso un'azione molto audace".

Tuttavia, la società ha concluso che, nonostante il "comportamento", i risultati non erano una novità, e generalmente si comporterebbe in modo sicuro.

Sebbene Openi e Antropic abbiano concluso che le capacità dei loro modelli AI non sono ancora sufficienti per portare a risultati catastrofici, le rivelazioni aggiungono alle crescenti paure che l'intelligenza artificiale potrebbe presto avere una propria agenda.

Accademia crittopolitana: in arrivo - un nuovo modo per guadagnare entrate passive con DeFi nel 2025. Scopri di più

Condividi il link:

Disclaimer. Le informazioni fornite non costituiscono consigli di trading. Cryptopolitan.com non si assume alcuna responsabilità per eventuali investimenti effettuati sulla base delle informazioni fornite in questa pagina. Raccomandiamo tron dent e/o la consultazione di un professionista qualificato prima di prendere qualsiasi decisione di investimento .

I più letti

Caricamento degli articoli più letti...

Rimani aggiornato sulle notizie crittografiche, ricevi aggiornamenti quotidiani nella tua casella di posta

La scelta dell'editore

Caricamento articoli scelti dall'editore...

- La newsletter Crypto che ti tiene avanti -

I mercati si muovono velocemente.

Ci muoviamo più velocemente.

Iscriviti al Cryptolitan Daily e diventa intuizioni cripto tempestive, nitide e pertinenti direttamente alla tua casella di posta.

Unisciti ora e
non perdere mai una mossa.

Entra. Ottieni i fatti.
Andare avanti.

Iscriviti a CryptoPolitan