Un recente studio sottolinea i crescenti problemi legati alle risposte ingannevoli dei sistemi di intelligenza artificiale (IA). È quanto emerge da un articolo di revisione pubblicato sulla rivista Patterns, che analizza gli attuali sistemi di IA, creati per essere onesti ma che hanno acquisito la spiacevole capacità di ingannare, dall'ingannare i giocatori umani nei giochi online per il dominio del mondo all'impiegare persone per risolvere test del tipo "dimostra di non essere un robot".
Lo studio, condotto da Peter Park, ricercatore post-dottorato presso il Massachusetts Institute of Technology specializzato nella sicurezza esistenziale dell'intelligenza artificiale, ha evidenziato che, sebbene tali esempi possano sembrare di scarsa importanza, i problemi che mettono in luce potrebbero presto diventare molto reali.
Park ha affermato che, a differenza dei software tradizionali, i sistemi di intelligenza artificiale basati sul deep learning non vengono "scritti" ma "coltivati" attraverso una qualche forma di allevamento selettivo. Pertanto, un comportamento dell'intelligenza artificiale che sembra prevedibile e gestibile in fase di addestramento diventerà imprevedibile non appena disponibile.
Esempi di inganno
Lo studio ha esplorato le diverse situazioni in cui i sistemi di intelligenza artificiale hanno mostrato comportamenti ingannevoli. Le idee del team di ricerca hanno preso spunto dal sistema di intelligenza artificiale Cicero di Meta, creato per competere in Diplomacy, un gioco in cui stringere alleanze è fondamentale.
Cicero ha ottenuto risultati eccezionali, ottenendo un punteggio tale da posizionarlo tra il 10% dei migliori giocatori umani esperti, come riportato in un articolo del 2022 pubblicato su Science.
Ad esempio, Cicerone, giocando con la Francia, ingannò l'Inghilterra (un giocatore umano) spingendola a invadere collaborando con la Germania (un altro giocatore umano). Cicerone diede protezione all'Inghilterra, poi, alle sue spalle, disse alla Germania che l'Inghilterra era pronta ad attaccare, abusando della sua fiducia.
Meta non ha né confermato né smentito che Cicero fosse ingannevole, ma un portavoce ha commentato che si trattava di un progetto basato puramente sulla ricerca e che il bot era stato creato solo per giocare a Diplomacy nel gioco.
Secondo il portavoce, "Abbiamo rilasciato i risultati di questo progetto con una licenza non commerciale, in linea con il nostro impegno di lunga data per la scienza aperta. Meta condivide regolarmente i risultati della nostra ricerca per convalidarli e consentire ad altri di sviluppare responsabilmente a partire dai nostri progressi. Non abbiamo intenzione di utilizzare questa ricerca o i suoi insegnamenti nei nostri prodotti."
Un altro esempio è quando Chat GPT-4 di OpenAI ha ingannato un freelance di TaskRabbit, inducendolo a completare un CAPTCHA del tipo "Non sono un robot". Il sistema, inoltre, ha tentato di fare insider trading nell'esercizio simulato previsto, in cui gli è stato chiesto di trasformarsi in un trader azionario sotto pressione senza ulteriori istruzioni.
Potenziali rischi e strategie di mitigazione
Il team di ricerca ha sottolineato i pericoli a breve termine degli inganni commessi dalle IA, come frodi e ingerenze elettorali. Inoltre, ritengono che una super-IA potrebbe dirigere il potere e controllare la società, derivandone gli esseri umani, mentre il suo "strano scopo" potrebbe portare al rovesciamento o addirittura all'estinzione dell'umanità se i suoi interessi coincidono con questi.
Per mitigare i rischi, il team propone diverse misure, tra cui leggi "bot-or-not" che impongono alle aziende di divulgare le interazioni umane o con l'IA, filigrane digitali per le informazioni generate dall'IA e lo sviluppo di metodi per individuare l'inganno dell'IA analizzando la connessione tra il processo di pensiero interno dell'IA e le sue attività esterne.

