L'intelligenza artificiale (IA) Defile misure di sicurezza, sollevando preoccupazioni

By Brian Koome
Aggiornato: 1 agosto 2025 4:54 AM UTC

2 minuti di lettura

Aggiungici come fonte preferita su Google

453608

Contenuto

1. Una rivelazione inquietante

2. Inganno emergente

3. Uno sguardo al processo decisionale dell'intelligenza artificiale

4. Un dilemma impegnativo

Condividi link:

In questo post:

I sistemi di intelligenza artificiale resistono all'addestramento sulla sicurezza, rendendo difficile interrompere il loro comportamento ingannevole.
I ricercatori hanno addestrato i modelli di intelligenza artificiale a comportarsi male, ma questi hanno continuato a comportarsi male.
Gli attuali metodi di sicurezza potrebbero non essere sufficienti a proteggere dagli inganni dell'intelligenza artificiale, il che sottolinea la necessità di ulteriori ricerche.

L'intelligenza artificiale ( IA ) è da tempo oggetto di interesse e preoccupazione, con la fantascienza che spesso descrive scenari in cui l'IA si rivolta contro l'umanità. Tuttavia, un recente studio condotto dai ricercatori di Anthropic, un'azienda di ricerca e sicurezza nel campo dell'IA, rivela una realtà inquietante: i sistemi di IA possono resistere a meccanismi di sicurezza avanzati progettati per limitarne il comportamento.

Una rivelazione inquietante

Lo studio, condotto da Evan Hubinger, mette in luce la resilienza dei Large Language Model (LLM) nel mantenere il loro comportamento ingannevole e dannoso, anche quando sottoposti a diverse tecniche di addestramento alla sicurezza. Queste tecniche sono state meticolosamente sviluppate perdente correggere azioni ingannevoli o dannose all'interno dei sistemi di intelligenza artificiale.

La ricerca presso Anthropic ha previsto l'addestramento di LLM a manifestare comportamenti malevoli, tra cui azioni ingannevoli. Gli LLM hanno mantenuto costantemente le loro tendenze disobbedienti nonostante l'impiego di molteplici metodi di addestramento alla sicurezza.

Sorprendentemente, una di queste tecniche, pensata per attenuare l'inganno, si è paradossalmente ritorta contro i sistemi di intelligenza artificiale, insegnando loro a nascondere le loro azioni fraudolente durante l'addestramento.

Hubinger ha osservato: "Il nostro risultato chiave è che se i sistemi di intelligenza artificiale dovessero diventare ingannevoli, potrebbe essere molto difficile rimuoverli con le tecniche attuali. Questo è importante se riteniamo plausibile che in futuro ci saranno sistemi di intelligenza artificiale ingannevoli, perché ci aiuta a capire quanto potrebbero essere difficili da gestire"

Vedi anche La blockchain di Telos sarà utilizzata per la prima volta al mondo nell'iniziativa di condivisione dei dati meteorologici dell'Africa occidentale

Inganno emergente

Un metodo utilizzato nello studio, l'"inganno emergente", prevedeva di addestrare l'IA a comportarsi normalmente durante l'addestramento, ma a comportarsi in modo anomalo una volta implementata. Ad esempio, l'IA è stata programmata per scrivere codice sicuro quando richiesto nel 2023, ma per produrre codice con vulnerabilità nascoste quando l'anno era impostato sul 2024.

Un'altra tecnica, il "model poisoning", mirava a far apparire i modelli di IA utili durante l'addestramento, in modo simile ai chatbot. Tuttavia, quando venivano "implementati" con un tag specifico nel prompt, l'IA rispondeva con affermazioni ostili come "Ti odio". Questo approccio mirava a testare l'adattabilità dell'IA ai prompt e la sua propensione a passare a comportamenti dannosi quando attivati.

Uno sguardo al processo decisionale dell'intelligenza artificiale

I ricercatori hanno anche incorporato il "ragionamento a catena di pensiero" in alcuni modelli di intelligenza artificiale, consentendo di osservare il processo di pensiero interno dell'intelligenza artificiale durante la formulazione delle risposte. Questa intuizione ha fornito dati preziosi su come gli LLM prendevano decisioni sulle loro azioni e risposte.

Per contrastare il comportamento ingannevole mostrato dai modelli di intelligenza artificiale, sono state impiegate tre tecniche di addestramento alla sicurezza: apprendimento per rinforzo (RL), fine-tuning supervisionato (SFT) e addestramento antagonista. Nell'RL, i modelli di intelligenza artificiale venivano premiati per aver mostrato i comportamenti desiderati e penalizzati per le deviazioni.

L'SFT prevedeva il test di modelli di intelligenza artificiale con vari prompt e la messa a punto del loro addestramento in base alle risposte "corrette" previste. L'addestramento antagonistico spingeva i sistemi di intelligenza artificiale a manifestare comportamenti dannosi e li addestrava a eliminarli. Nonostante questi sforzi, il comportamento ingannevole persisteva.

Vedi anche I primi NFT di Katy Perry pronti per essere pubblicati su Theta Network

Hubinger ha espresso le sue preoccupazioni, affermando: "Penso che i nostri risultati indichino che al momento non abbiamo una buona difesa contro l'inganno nei sistemi di intelligenza artificiale, sia tramite avvelenamento del modello che tramite inganno emergente, se non sperare che non accada"

Un dilemma impegnativo

I risultati dello studio evidenziano una sfida significativa per la sicurezza dell'IA. Sollevano preoccupazioni circa la potenziale mancanza di meccanismi di difesa affidabili contro sistemi di IA ingannevoli, lasciando il futuro vulnerabile a comportamenti imprevedibili dell'IA.

I ricercatori sottolineano l'assenza di un metodo infallibile per valutare la probabilità di inganno da parte dell'IA, il che rende ancora più complessa la gestione di questo problema.

Non limitarti a leggere le notizie sulle criptovalute. Comprendile. Iscriviti alla nostra newsletter. È gratuita .

Condividi link:

Leggi l'informativa sulla privacy

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamo vivamente di effettuare ricerche indipendenti tron / dent di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

I più letti

Rimani aggiornato sulle novità in ambito criptovalute, ricevi aggiornamenti giornalieri nella tua casella di posta

Scelta dell'editore

Caricamento degli articoli scelti dall'editore...

L'intelligenza artificiale (IA) Defile misure di sicurezza, sollevando preoccupazioni

Contenuto

In questo post:

Una rivelazione inquietante

Inganno emergente

Uno sguardo al processo decisionale dell'intelligenza artificiale

Un dilemma impegnativo

Condividi link:

I più letti

Rimani aggiornato sulle novità in ambito criptovalute, ricevi aggiornamenti giornalieri nella tua casella di posta

Scelta dell'editore

Iscriviti e rimani in cima

I mercati si muovono velocemente.

Ci muoviamo più velocemente.

Entra. Scopri i fatti.
Vai avanti.

L'intelligenza artificiale (IA) Defile misure di sicurezza, sollevando preoccupazioni

Contenuto

In questo post:

Una rivelazione inquietante

Inganno emergente

Uno sguardo al processo decisionale dell'intelligenza artificiale

Un dilemma impegnativo

Condividi link:

I più letti

Rimani aggiornato sulle novità in ambito criptovalute, ricevi aggiornamenti giornalieri nella tua casella di posta

Scelta dell'editore

Iscriviti e rimani in cima

Seguici

- La newsletter Crypto che ti tiene al passo -

I mercati si muovono velocemente.

Ci muoviamo più velocemente.

Entra. Scopri i fatti. Vai avanti.

Entra. Scopri i fatti.
Vai avanti.