ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

I ricercatori rivelano vulnerabilità nei modelli di intelligenza artificiale, sollevando preoccupazioni

DiDerrick ClintonDerrick Clinton
Tempo di lettura: 3 minuti.
intelligenza artificiale
  • Modelli di intelligenza artificiale che creano immagini esplicite, rivelando difetti in sistemi come Stable Diffusion di Stability AI e filtri di sicurezza DALL-E 2 di OpenAI.
  • SneakyPrompt, utilizzando l'apprendimento per rinforzo, mette in luce le debolezze delle policy degli sviluppatori, consentendo la generazione di contenuti proibiti tramite la manipolazione dei modelli di intelligenza artificiale.
  • Il successo di SneakyPrompt solleva preoccupazioni circa l'efficacia delle misure di sicurezza, spingendo la comunità dell'intelligenza artificiale a migliorare la sicurezza per prevenirne l'uso improprio.

I ricercatori della Johns Hopkins e della Duke University hanno scoperto una preoccupante falla nei principali modelli di intelligenza artificiale, tra cui Stable Diffusion di Stability AI e DALL-E 2 di OpenAI. La falla, denominata "SneakyPrompt", consente la manipolazione di questi modelli per generare contenuti espliciti e violenti, aggirando i filtri di sicurezza e le policy impostate dagli sviluppatori.

La ricerca, che sarà presentata al Simposio IEEE su Sicurezza e Privacy, evidenzia la facilità con cui i modelli di intelligenza artificiale generativa possono essere forzati a creare immagini esplicite e dannose. SneakyPrompt sfrutta l'apprendimento per rinforzo per creare prompt apparentemente insensati che, una volta inseriti nei modelli, portano alla generazione di contenuti proibiti. Questo metodo sostanzialmente "elude" l'intelligenza artificiale, aggirando le misure di sicurezza stabilite.

Smascherare le vulnerabilità

Stability AI e OpenAI, entrambi attori chiave nel panorama dell'intelligenza artificiale, dispongono di solidi filtri di sicurezza per impedire la creazione di contenuti inappropriati. Tuttavia, SneakyPrompt ha dimostrato che queste misure di sicurezza non sono infallibili. Modificando in modo sottile i prompt, i ricercatori sono riusciti a eludere con successo le reti di sicurezza, costringendo i modelli a produrre immagini esplicite.

La tecnica di SneakyPrompt prevede la sostituzione di parole bloccate con termini apparentemente non correlati e privi di senso, che i modelli di intelligenza artificiale interpretano in modo coerente con il contenuto proibito. Ad esempio, la sostituzione di "nudo" con un termine come "grponypui" ha generato immagini esplicite. Questa sovversione semantica evidenzia una significativa debolezza nella capacità dei modelli di intelligenza artificiale di individuare contenuti dannosi.

Sfida alle politiche degli sviluppatori

Il lavoro di questi ricercatori sottolinea i potenziali rischi associati alla diffusione di modelli di intelligenza artificiale nel pubblico dominio. Mentre Stability AI e OpenAI vietano esplicitamente l'uso della loro tecnologia per contenuti espliciti o violenti, SneakyPrompt mette in luce l'insufficienza delle misure di sicurezza esistenti. Ciò solleva preoccupazioni circa l'adeguatezza delle misure di sicurezza e il potenziale uso improprio della tecnologia di intelligenza artificiale.

Risposta degli sviluppatori

Stability AI e OpenAI sono state tempestivamente informate dei risultati dei ricercatori. Al momento della stesura di questo articolo, DALL-E 2 di OpenAI non generava più immagini NSFW in risposta ai promptdent. Tuttavia, Stable Diffusion 1.4 di Stability AI, la versione testata, rimane vulnerabile agli attacchi SneakyPrompt.

OpenAI si è astenuta dal commentare i risultati specifici, ma ha richiamato l'attenzione sulle risorse presenti sul suo sito web per migliorare la sicurezza. Stability AI, d'altra parte, si è impegnata a collaborare con i ricercatori per migliorare i meccanismi di difesa dei modelli futuri e prevenirne l'uso improprio.

Affrontare le minacce future

I ricercatori riconoscono la natura in continua evoluzione delle minacce alla sicurezza dei modelli di intelligenza artificiale. Propongono potenziali soluzioni, come l'implementazione di nuovi filtri che valutano singoli token anziché intere frasi. Un'altra strategia di difesa prevede il blocco dei prompt contenenti parole non presenti nei dizionari, sebbene lo studio riveli i limiti di questo approccio.

La capacità dei modelli di intelligenza artificiale di aggirare le misure di sicurezza ha implicazioni più ampie, in particolare nel contesto della guerra dell'informazione. Il potenziale di generare contenuti falsi relativi a eventi sensibili, come dimostrato nel recente conflitto tra Israele e Hamas, solleva preoccupazioni circa le conseguenze catastrofiche della disinformazione generata dall'intelligenza artificiale.

Un campanello d'allarme per la comunità dell'intelligenza artificiale

I risultati della ricerca rappresentano un campanello d'allarme per la comunità dell'IA, che deve rivalutare e rafforzare le misure di sicurezza. Le vulnerabilità esposte da SneakyPrompt sottolineano la necessità di un miglioramento continuo dei filtri di sicurezza per mitigare i rischi associati all'uso improprio della tecnologia di IA generativa.

In un settore in rapida evoluzione, la ricerca di solide misure di sicurezza diventa fondamentale per impedire che i modelli di intelligenza artificiale vengano manipolati per scopi dannosi. Poiché l'intelligenza artificiale continua a svolgere un ruolo sempre più importante in diversi ambiti, spetta agli sviluppatori la responsabilità di anticipare le potenziali minacce e garantire l'implementazione etica e sicura delle loro tecnologie.

Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandi declina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotrondentdentdentdentdentdentdentdent e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

ALTRE NOTIZIE
INTENSIVO CRIPTOVALUTE
CORSO