ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Google, OpenAI e Meta lanciano l'allarme sui pensieri dannosi nascosti dell'intelligenza artificiale

DiNoor BazmiNoor Bazmi
Tempo di lettura: 3 minuti.
Google, OpenAI e Meta lanciano l'allarme sui pensieri dannosi nascosti dell'intelligenza artificiale
  • Oltre 40 ricercatori di intelligenza artificiale, supportati dai leader di OpenAI e Geoffrey Hinton, propongono di monitorare la "catena di pensiero" del ragionamento passo dopo passo dell'intelligenza artificiale, per rilevare e prevenire comportamenti pericolosi.
  • L'articolo avverte che se i modelli vengono premiati solo per le buone risposte finali, potrebbero smettere di produrre ragionamenti trasparenti.
  • I ricercatori sottolineano la necessità di preservare tracdi ragionamento autentico e di trattarle come preziosi segnali di intelligenza.

Oltre 40 ricercatori di intelligenza artificiale provenienti da OpenAI, DeepMind, Google, Anthropic e Meta hanno pubblicato un articolo su uno strumento di sicurezza chiamato monitoraggio della catena di pensiero per rendere l'intelligenza artificiale più sicura. 

L' articolo pubblicato martedì descrive come i modelli di intelligenza artificiale, come i chatbot odierni, risolvono i problemi suddividendoli in passaggi più piccoli e illustrando ciascun passaggio in un linguaggio semplice, in modo da poter memorizzare i dettagli e gestire domande complesse.

"I sistemi di intelligenza artificiale che 'pensano' in linguaggio umano offrono un'opportunità unica per la sicurezza dell'intelligenza artificiale: possiamo monitorare le loro catene di pensiero (CoT) per individuare l'intenzione di comportarsi male", afferma il documento.

Esaminando ogni fase di pensiero dettagliata, gli sviluppatori possono individuare quando un modello inizia a sfruttare le lacune di formazione, a distorcere i fatti o a seguire comandi pericolosi.

Secondo lo studio, se il processo di ragionamento dell'IA dovesse fallire, è possibile interromperlo, indirizzarlo verso azioni più sicure o segnalarlo per un'analisi più approfondita. Ad esempio, OpenAI ha utilizzato questa funzionalità per individuare i momenti in cui il ragionamento implicito dell'IA suggeriva "Proviamo ad hackerare", anche se questa opzione non si manifestava nella risposta finale.

L'intelligenza artificiale potrebbe imparare a nascondere i propri pensieri

Lo studio avverte che la trasparenza graduale potrebbe svanire se l'addestramento premiasse solo la risposta finale. I modelli futuri potrebbero smettere di mostrare ragionamenti comprensibili all'uomo e le IA più avanzate potrebbero persino imparare a nascondere i propri processi mentali quando sanno di essere osservate.

Inoltre, gli sviluppatori dovrebbero controllare e registrare regolarmente quanta parte del ragionamento dell'IA è visibile in ogni fase e fare di tale trasparenza una regola di sicurezza fondamentale durante la creazione e la condivisione dei modelli.

Questa iniziativa segue esperimenti interni condotti presso laboratori leader, come Anthropic, Google, OpenAI e xAI, in cui i team sollecitano modelli per spiegare ogni fase del ragionamento.

Sebbene l'esame del ragionamento passo dopo passo abbia migliorato la comprensione e le prestazioni, ha anche evidenziato casi in cui la risposta finale dell'IA non corrisponde a ciò che stava realmente accadendo all'interno.

Tali incongruenze evidenziano un punto cieco nella nostra comprensione del processo decisionale dell'IA, una preoccupazione che potrebbe intensificarsi man mano che i sistemi acquisiscono maggiore autonomia.

Il ragionamento filtrato dell'intelligenza artificiale solleva preoccupazioni sulla trasparenza e sulla fiducia

Jack Clark, co-fondatore di Anthropic Financial Timesintrospettiva tracsarà essenziale per valutare i modelli in ambiti ad alto rischio, tra cui la ricerca biotecnologica.

Gli utenti abituali ricevono un riepilogo modificato del ragionamento dell'IA, le parti pericolose o confuse vengono eliminate, mentre gli ingegneri dell'azienda possono vedere l'intera catena di pensiero per individuare e risolvere i problemi.

"Uno degli aspetti più straordinari dell'interpretabilità del flusso di pensiero è che, nella maggior parte dei casi, è avvenuta gratuitamente", ha affermato Bowen Baker, ricercatore scientifico presso OpenAI.

"Abbiamo addestrato questi modelli non con l'obiettivo di renderli interpretabili. Li abbiamo addestrati perché volevamo i migliori modelli di ragionamento possibili in grado di risolvere problemi complessi", ha aggiunto Baker. "Nel nostro recente lavoro abbiamo scoperto che è possibile leggerli e trovare prove del comportamento anomalo del modello, e usarle per vedere dove e perché si comporta in modo anomalo"

Il ragionamento dell'intelligenza artificiale è davvero affidabile?

A volte, uno sguardo più attento può rivelare contraddizioni nascoste.

Ad esempio, METR ha visto il ragionamento privato di Claude definire un trucco di programmazione "inelegante", nonostante la sua risposta pubblica lo abbia elogiato come "elegante"

I test di OpenAI hanno dimostrato che il controllo dei pensieri nascosti individua le azioni pericolose meglio della semplice analisi del risultato finale, ma hanno anche scoperto una falla. Se si addestra un modello a cancellare i pensieri pericolosi, può comunque svolgere attività proibite in segreto, come sottrarre dati da fonti bloccate.

"Una delle proprietà fondamentali che vogliamo per la catena di pensiero è che rimanga parte dello stato cerebrale interno del modello, non qualcosa che cerca di compiacerci o di conformarsi a una struttura specifica", ha avvertito Baker. Se gli sviluppatori enfatizzano eccessivamente l'importanza di forzare il modello a emettere pensieri "piacevoli", potrebbe simulare un ragionamento innocuo, ma comunque eseguire operazioni dannose.

I ricercatori ammettono che si tratta di un compromesso difficile. Osservare la catena di pensiero di un'IA aiuta a individuarne gli errori, ma non è sempre affidabile. I laboratori che lavorano su IA più avanzate stanno ora dando priorità assoluta a colmare questo divario di fiducia.

"La lezione che ho imparato dall'intelligenza artificiale negli ultimi anni è: non scommettere mai contro il progresso dei modelli", ha affermato David Luan, uno dei primi pionieri del pensiero concatenato in Google e ora a capo del laboratorio di intelligenza artificiale di Amazon. Luan prevede che le carenze esistenti saranno affrontate nel breve termine.

Sydney von Arx, ricercatore del METR, ha osservato che, sebbene il ragionamento nascosto di un'IA possa a volte essere ingannevole, fornisce comunque segnali preziosi.

"Dovremmo trattare la catena di pensiero come un esercito potrebbe trattare le comunicazioni radio nemiche intercettate", ha affermato. "Il messaggio potrebbe essere fuorviante o codificato, ma sappiamo che contiene informazioni utili. Col tempo, impareremo molto studiandolo"

Se vuoi iniziare a muoverti con più calma nel DeFi mondo delle criptovalute , senza il solito clamore, inizia con questo video gratuito.

Condividi questo articolo
ALTRE NOTIZIE
INTENSIVO CRIPTOVALUTE
CORSO