ULTIME NOTIZIE

Tom Lee lascia intendere un possibile cambio di strategia per acquistare ETH mentre BitMine si avvicina all'importante traguardo del 5%

14 minuti fa Notizie
OpenAI distribuisce modelli vocali in grado di ragionare, tradurre e trascrivere in tempo reale

2 ore fa Notizie
eBay non è interessato all'offerta di acquisto "trasformata in meme" di Ryan GameStop

2 ore fa Attività commerciale
AWS fornisce agli agenti IA dei portafogli personali per pagare le API

2 ore fa Notizie

SELEZIONATO PER TE

SETTIMANALE

RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Google, OpenAI e Meta lanciano l'allarme sui pensieri dannosi nascosti dell'intelligenza artificiale

Noor Bazmi

Tempo di lettura: 3 minuti. 16 luglio 2025.

Google, OpenAI e Meta lanciano l'allarme sui pensieri dannosi nascosti dell'intelligenza artificiale

Oltre 40 ricercatori di intelligenza artificiale, supportati dai leader di OpenAI e Geoffrey Hinton, propongono di monitorare la "catena di pensiero" del ragionamento passo dopo passo dell'intelligenza artificiale, per rilevare e prevenire comportamenti pericolosi.
L'articolo avverte che se i modelli vengono premiati solo per le buone risposte finali, potrebbero smettere di produrre ragionamenti trasparenti.
I ricercatori sottolineano la necessità di preservare tracdi ragionamento autentico e di trattarle come preziosi segnali di intelligenza.

Oltre 40 ricercatori di intelligenza artificiale provenienti da OpenAI, DeepMind, Google, Anthropic e Meta hanno pubblicato un articolo su uno strumento di sicurezza chiamato monitoraggio della catena di pensiero per rendere l'intelligenza artificiale più sicura.

L' articolo pubblicato martedì descrive come i modelli di intelligenza artificiale, come i chatbot odierni, risolvono i problemi suddividendoli in passaggi più piccoli e illustrando ciascun passaggio in un linguaggio semplice, in modo da poter memorizzare i dettagli e gestire domande complesse.

"I sistemi di intelligenza artificiale che 'pensano' in linguaggio umano offrono un'opportunità unica per la sicurezza dell'intelligenza artificiale: possiamo monitorare le loro catene di pensiero (CoT) per individuare l'intenzione di comportarsi male", afferma il documento.

Esaminando ogni fase di pensiero dettagliata, gli sviluppatori possono individuare quando un modello inizia a sfruttare le lacune di formazione, a distorcere i fatti o a seguire comandi pericolosi.

Secondo lo studio, se il processo di ragionamento dell'IA dovesse fallire, è possibile interromperlo, indirizzarlo verso azioni più sicure o segnalarlo per un'analisi più approfondita. Ad esempio, OpenAI ha utilizzato questa funzionalità per individuare i momenti in cui il ragionamento implicito dell'IA suggeriva "Proviamo ad hackerare", anche se questa opzione non si manifestava nella risposta finale.

L'intelligenza artificiale potrebbe imparare a nascondere i propri pensieri

Lo studio avverte che la trasparenza graduale potrebbe svanire se l'addestramento premiasse solo la risposta finale. I modelli futuri potrebbero smettere di mostrare ragionamenti comprensibili all'uomo e le IA più avanzate potrebbero persino imparare a nascondere i propri processi mentali quando sanno di essere osservate.

Inoltre, gli sviluppatori dovrebbero controllare e registrare regolarmente quanta parte del ragionamento dell'IA è visibile in ogni fase e fare di tale trasparenza una regola di sicurezza fondamentale durante la creazione e la condivisione dei modelli.

Questa iniziativa segue esperimenti interni condotti presso laboratori leader, come Anthropic, Google, OpenAI e xAI, in cui i team sollecitano modelli per spiegare ogni fase del ragionamento.

Sebbene l'esame del ragionamento passo dopo passo abbia migliorato la comprensione e le prestazioni, ha anche evidenziato casi in cui la risposta finale dell'IA non corrisponde a ciò che stava realmente accadendo all'interno.

Tali incongruenze evidenziano un punto cieco nella nostra comprensione del processo decisionale dell'IA, una preoccupazione che potrebbe intensificarsi man mano che i sistemi acquisiscono maggiore autonomia.

Il ragionamento filtrato dell'intelligenza artificiale solleva preoccupazioni sulla trasparenza e sulla fiducia

Jack Clark, co-fondatore di Anthropic Financial Timesintrospettiva tracsarà essenziale per valutare i modelli in ambiti ad alto rischio, tra cui la ricerca biotecnologica.

Gli utenti abituali ricevono un riepilogo modificato del ragionamento dell'IA, le parti pericolose o confuse vengono eliminate, mentre gli ingegneri dell'azienda possono vedere l'intera catena di pensiero per individuare e risolvere i problemi.

"Uno degli aspetti più straordinari dell'interpretabilità del flusso di pensiero è che, nella maggior parte dei casi, è avvenuta gratuitamente", ha affermato Bowen Baker, ricercatore scientifico presso OpenAI.

"Abbiamo addestrato questi modelli non con l'obiettivo di renderli interpretabili. Li abbiamo addestrati perché volevamo i migliori modelli di ragionamento possibili in grado di risolvere problemi complessi", ha aggiunto Baker. "Nel nostro recente lavoro abbiamo scoperto che è possibile leggerli e trovare prove del comportamento anomalo del modello, e usarle per vedere dove e perché si comporta in modo anomalo"

Il ragionamento dell'intelligenza artificiale è davvero affidabile?

A volte, uno sguardo più attento può rivelare contraddizioni nascoste.

Ad esempio, METR ha visto il ragionamento privato di Claude definire un trucco di programmazione "inelegante", nonostante la sua risposta pubblica lo abbia elogiato come "elegante"

I test di OpenAI hanno dimostrato che il controllo dei pensieri nascosti individua le azioni pericolose meglio della semplice analisi del risultato finale, ma hanno anche scoperto una falla. Se si addestra un modello a cancellare i pensieri pericolosi, può comunque svolgere attività proibite in segreto, come sottrarre dati da fonti bloccate.

"Una delle proprietà fondamentali che vogliamo per la catena di pensiero è che rimanga parte dello stato cerebrale interno del modello, non qualcosa che cerca di compiacerci o di conformarsi a una struttura specifica", ha avvertito Baker. Se gli sviluppatori enfatizzano eccessivamente l'importanza di forzare il modello a emettere pensieri "piacevoli", potrebbe simulare un ragionamento innocuo, ma comunque eseguire operazioni dannose.

I ricercatori ammettono che si tratta di un compromesso difficile. Osservare la catena di pensiero di un'IA aiuta a individuarne gli errori, ma non è sempre affidabile. I laboratori che lavorano su IA più avanzate stanno ora dando priorità assoluta a colmare questo divario di fiducia.

"La lezione che ho imparato dall'intelligenza artificiale negli ultimi anni è: non scommettere mai contro il progresso dei modelli", ha affermato David Luan, uno dei primi pionieri del pensiero concatenato in Google e ora a capo del laboratorio di intelligenza artificiale di Amazon. Luan prevede che le carenze esistenti saranno affrontate nel breve termine.

Sydney von Arx, ricercatore del METR, ha osservato che, sebbene il ragionamento nascosto di un'IA possa a volte essere ingannevole, fornisce comunque segnali preziosi.

"Dovremmo trattare la catena di pensiero come un esercito potrebbe trattare le comunicazioni radio nemiche intercettate", ha affermato. "Il messaggio potrebbe essere fuorviante o codificato, ma sappiamo che contiene informazioni utili. Col tempo, impareremo molto studiandolo"

Se vuoi iniziare a muoverti con più calma nel DeFi mondo delle criptovalute , senza il solito clamore, inizia con questo video gratuito.

Antropico Google Meta OpenAI

Condividi questo articolo

Noor Bazmi

Noor Bazmi è laureata in Cinema. È passata dal cinema alle storie del mondo reale come giornalista, con interessi che spaziano dalla blockchain alla tecnologia e al loro ruolo crescente nel mondo economico e nella vita personale. Pur continuando a lavorare come giornalista da oltre un anno, sta conseguendo ulteriori qualifiche in marketing, un campo che unisce la sua attenzione alla narrazione creativa, all'innovazione e all'autenticità per creare un impatto concreto e connessioni più profonde con il pubblico globale.

INDICE

1. L'intelligenza artificiale potrebbe imparare a nascondere i propri pensieri

2. Il ragionamento filtrato dell'intelligenza artificiale solleva preoccupazioni sulla trasparenza e sulla fiducia

3. Il ragionamento dell'intelligenza artificiale è davvero affidabile?

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

INTENSIVO CRIPTOVALUTE
CORSO

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)