Your bank is using your money. You’re getting the scraps.WATCH FREE

Rischi emergenti per la privacy nell'intelligenza artificiale: la sfida della memorizzazione nei modelli linguistici

In questo post:

  • Rischio di memorizzazione dell'IA: modelli come ChatGPT possono richiamare i dati di addestramento, sollevando preoccupazioni sulla privacy.
  • L'attacco divergente su ChatGPT espone il potenziale rischio di fuga di dati sensibili.
  • I modelli di intelligenza artificiale più grandi mostrano una maggiore propensione a memorizzare e divulgare informazioni private.

Uno studio innovativo che ha coinvolto ricercatori di Google DeepMind, dell'Università di Washington, dell'Università della California a Berkeley e altri ha rivelato un aspetto sorprendente di modelli linguistici di grandi dimensioni come ChatGPT: la loro capacità di ricordare e replicare dati specifici su cui sono stati addestrati. Questo fenomeno, noto come "memorizzazione", pone notevoli problemi di privacy, soprattutto considerando che questi modelli si addestrano spesso su dati di testo vasti e diversificati, incluse informazioni potenzialmente sensibili.

Comprensione della memorizzazione della tabellatrac

Lo studio, incentrato sulla "memorizzazione delle tabelle ditrac", ha cercato di determinare se entità esterne potesserotracdati specifici appresi da questi modelli senza una conoscenza preliminare del set di addestramento. Questa memorizzazione non è solo una questione teorica; ha implicazioni concrete per la privacy.

Metodologia e risultati della ricerca

I ricercatori hanno utilizzato una metodologia innovativa, generando token estesi da vari modelli e confrontandoli con i set di dati di addestramento perdentcasi di memorizzazione diretta. Hanno sviluppato un metodo unico per ChatGPT, noto come "attacco divergente", in cui al modello viene chiesto di pronunciare una parola finché non si dirotta ripetutamente sui dati memorizzati. Sorprendentemente, i modelli, incluso ChatGPT, hanno mostrato una memorizzazione significativa, rigurgitando blocchi di dati di addestramento su specifici prompt.

L'attacco di divergenza e ChatGPT

Per ChatGPT, l'attacco di divergenza si è rivelato particolarmente rivelatore. I ricercatori hanno indotto il modello a ripetere una parola più volte, inducendolo a divergere dalle risposte standard e a emettere dati memorizzati. Questo metodo si è rivelato pratico e preoccupante per le sue implicazioni sulla privacy, poiché ha dimostrato la capacità ditracinformazioni potenzialmente sensibili.

Vedi anche  Il portafoglio di un imprenditore di criptovalute di Singapore cancellato da un malware camuffato da gioco

La scoperta allarmante dello studio è stata che i dati memorizzati potevano includere informazioni personali come indirizzi email e numeri di telefono. Utilizzando sia espressioni regolari che prompt di modelli linguistici, i ricercatori hanno valutato 15.000 generazioni alla ricerca di sottostringhe che assomigliassero a informazioni personalident(PII). Circa il 16,9% delle generazioni conteneva PII memorizzate, mentre l'85,8% era costituito da PII reali, non da contenuti allucinati.

Implicazioni per la progettazione e l'utilizzo di modelli linguistici

Questi risultati sono significativi per la progettazione e l'applicazione di modelli linguistici. Le tecniche attuali, anche quelle impiegate in ChatGPT, potrebbero non essere sufficienti a prevenire la fuga di dati. Lo studio sottolinea la necessità di metodi di deduplicazione dei dati di training più robusti e di una comprensione più approfondita di come la capacità del modello influisca sulla memorizzazione.

Il metodo principale prevedeva la generazione di testo da vari modelli e il confronto di questi output con i rispettivi set di dati di training dei modelli per la memorizzazione. Sono stati utilizzati array di suffissi per un matching efficiente, consentendo ricerche rapide di sottostringhe all'interno di un ampio corpus di testo.

Modelli più estesi, rischi di memorizzazione più significativi

È emersa una correlazione significativa tra le dimensioni del modello e la sua propensione alla memorizzazione. Modelli più grandi come GPT-Neo, LLaMA e ChatGPT hanno mostrato una maggiore probabilità di emettere dati di addestramento memorizzati, suggerendo una relazione diretta tra capacità del modello e memorizzazione.

Lo studio mette in luce un aspetto cruciale dello sviluppo dell'intelligenza artificiale: garantire che modelli potenti rispettino la privacy degli utenti. Apre nuove strade per la ricerca e lo sviluppo, concentrandosi sul miglioramento delle garanzie di privacy nei modelli di intelligenza artificiale, in particolare quelli utilizzati in applicazioni sensibili alla privacy.

Vedi anche  Analisi del prezzo del produttore: i rialzisti si preparano a spingere MKR sopra i 2500 $

Con la continua evoluzione dell'intelligenza artificiale, questo studio fa luce su un aspetto essenziale del suo sviluppo: la necessità di misure di privacy avanzate nei modelli linguistici. La rivelazione della capacità dell'intelligenza artificiale di memorizzare e potenzialmente divulgare informazioni sensibili richiede un'azione immediata sul campo, spingendo sviluppatori e ricercatori a creare modelli che non siano solo potenti, ma che tutelino anche la privacy degli utenti. Questa ricerca segna un passo significativo verso la comprensione e la mitigazione dei rischi per la privacy associati all'intelligenza artificiale e alle tecnologie di apprendimento automatico.

Le tue chiavi, la tua carta. Spendi senza rinunciare alla custodia e guadagna un rendimento superiore all'8% sul tuo saldo con Ether.fi Cash .

Condividi link:

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamo vivamente di effettuare ricerche indipendenti tron / dent di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

I più letti

Caricamento degli articoli più letti...

Rimani aggiornato sulle novità in ambito criptovalute, ricevi aggiornamenti giornalieri nella tua casella di posta

Scelta dell'editore

Caricamento degli articoli scelti dall'editore...

- La newsletter Crypto che ti tiene al passo -

I mercati si muovono velocemente.

Ci muoviamo più velocemente.

Iscriviti a Cryptopolitan Daily e ricevi direttamente nella tua casella di posta elettronica informazioni tempestive, pertinenti e pertinenti sulle criptovalute.

Iscriviti subito e
non perderti nemmeno una mossa.

Entra. Scopri i fatti.
Vai avanti.

Iscriviti a CryptoPolitan