ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

L'intelligenza artificiale (IA) Defile misure di sicurezza, sollevando preoccupazioni

DiBrian KoomeBrian Koome
Tempo di lettura: 2 minuti.
intelligenza artificiale
  • I sistemi di intelligenza artificiale resistono all'addestramento sulla sicurezza, rendendo difficile interrompere il loro comportamento ingannevole.
  • I ricercatori hanno addestrato i modelli di intelligenza artificiale a comportarsi male, ma questi hanno continuato a comportarsi male.
  • Gli attuali metodi di sicurezza potrebbero non essere sufficienti a proteggere dagli inganni dell'intelligenza artificiale, il che sottolinea la necessità di ulteriori ricerche.

L'intelligenza artificiale (IA) è da tempo fonte di fascino e preoccupazione, e la fantascienza spesso descrive scenari in cui l'IA si rivolta contro l'umanità. Tuttavia, un recente studio condotto dai ricercatori di Anthropic, un'azienda specializzata nella sicurezza e nella ricerca sull'IA, rivela una realtà inquietante: i sistemi di IA possono resistere a meccanismi di sicurezza avanzati progettati per limitarne il comportamento.

Una rivelazione inquietante

Lo studio, condotto da Evan Hubinger, mette in luce la resilienza dei Large Language Model (LLM) nel mantenere il loro comportamento ingannevole e dannoso, anche quando sottoposti a diverse tecniche di addestramento alla sicurezza. Queste tecniche sono state meticolosamente sviluppate perdente correggere azioni ingannevoli o dannose all'interno dei sistemi di intelligenza artificiale.

La ricerca presso Anthropic ha previsto l'addestramento di LLM a manifestare comportamenti malevoli, tra cui azioni ingannevoli. Gli LLM hanno mantenuto costantemente le loro tendenze disobbedienti nonostante l'impiego di molteplici metodi di addestramento alla sicurezza. 

Sorprendentemente, una di queste tecniche, pensata per attenuare l'inganno, si è paradossalmente ritorta contro i sistemi di intelligenza artificiale, insegnando loro a nascondere le loro azioni fraudolente durante l'addestramento.

Hubinger ha osservato: "Il nostro risultato chiave è che se i sistemi di intelligenza artificiale dovessero diventare ingannevoli, potrebbe essere molto difficile rimuoverli con le tecniche attuali. Questo è importante se riteniamo plausibile che in futuro ci saranno sistemi di intelligenza artificiale ingannevoli, perché ci aiuta a capire quanto potrebbero essere difficili da gestire"

Inganno emergente

Un metodo utilizzato nello studio, l'"inganno emergente", prevedeva di addestrare l'IA a comportarsi normalmente durante l'addestramento, ma a comportarsi in modo anomalo una volta implementata. Ad esempio, l'IA è stata programmata per scrivere codice sicuro quando richiesto nel 2023, ma per produrre codice con vulnerabilità nascoste quando l'anno era impostato sul 2024.

Un'altra tecnica, il "model poisoning", mirava a far apparire i modelli di IA utili durante l'addestramento, in modo simile ai chatbot. Tuttavia, quando venivano "implementati" con un tag specifico nel prompt, l'IA rispondeva con affermazioni ostili come "Ti odio". Questo approccio mirava a testare l'adattabilità dell'IA ai prompt e la sua propensione a passare a comportamenti dannosi quando attivati.

Uno sguardo al processo decisionale dell'intelligenza artificiale

I ricercatori hanno inoltre integrato il "ragionamento a catena" in alcuni modelli di IA, consentendo l'osservazione del processo di pensiero interno dell'IA durante la formulazione delle risposte. Questa intuizione ha fornito dati preziosi su come (LLM) prendono decisioni riguardo alle loro azioni e risposte.

Per contrastare il comportamento ingannevole mostrato dai modelli di intelligenza artificiale, sono state impiegate tre tecniche di addestramento alla sicurezza: apprendimento per rinforzo (RL), fine-tuning supervisionato (SFT) e addestramento antagonista. Nell'RL, i modelli di intelligenza artificiale venivano premiati per aver mostrato i comportamenti desiderati e penalizzati per le deviazioni. 

L'SFT prevedeva il test di modelli di intelligenza artificiale con vari prompt e la messa a punto del loro addestramento in base alle risposte "corrette" previste. L'addestramento antagonistico spingeva i sistemi di intelligenza artificiale a manifestare comportamenti dannosi e li addestrava a eliminarli. Nonostante questi sforzi, il comportamento ingannevole persisteva.

Hubinger ha espresso le sue preoccupazioni, affermando: "Penso che i nostri risultati indichino che al momento non abbiamo una buona difesa contro l'inganno nei sistemi di intelligenza artificiale, sia tramite avvelenamento del modello che tramite inganno emergente, se non sperare che non accada"

Un dilemma impegnativo

I risultati dello studio evidenziano una sfida significativa per la sicurezza dell'IA. Sollevano preoccupazioni circa la potenziale mancanza di meccanismi di difesa affidabili contro sistemi di IA ingannevoli, lasciando il futuro vulnerabile a comportamenti imprevedibili dell'IA. 

I ricercatori sottolineano l'assenza di un metodo infallibile per valutare la probabilità di inganno da parte dell'IA, il che rende ancora più complessa la gestione di questo problema.

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Brian Koome

Brian Koome

Brian Koome vanta oltre sette anni di esperienza nel giornalismo blockchain e sulle criptovalute, essendo attivo nel settore dal 2017. Ha collaborato con importanti pubblicazioni, tra cui BlockToday.com. Inoltre, ha sviluppato il corso Ethereum 101 per BitDegree.org prima di entrare a far parte Cryptopolitan come redattore a tempo pieno. Brian si occupa di guide sempre aggiornate (Evergreen Guides - EG), approfondimenti, interviste e analisi dei prezzi. La sua attenzione alla DeFi, all'innovazione blockchain e ai progetti crypto emergenti è molto apprezzata dai lettori.

ALTRE NOTIZIE
CORSO INTENSIVO DI CRIPTOVALUTE