Uno studio innovativo che ha coinvolto ricercatori di Google DeepMind, dell'Università di Washington, dell'Università della California a Berkeley e altri ha rivelato un aspetto sorprendente di modelli linguistici di grandi dimensioni come ChatGPT: la loro capacità di ricordare e replicare dati specifici su cui sono stati addestrati. Questo fenomeno, noto come "memorizzazione", pone notevoli problemi di privacy, soprattutto considerando che questi modelli si addestrano spesso su dati di testo vasti e diversificati, incluse informazioni potenzialmente sensibili.
Comprensione della memorizzazione della tabellatrac
Lo studio, incentrato sulla "memorizzazione delle tabelle ditrac", ha cercato di determinare se entità esterne potesserotracdati specifici appresi da questi modelli senza una conoscenza preliminare del set di addestramento. Questa memorizzazione non è solo una questione teorica; ha implicazioni concrete per la privacy.
Metodologia e risultati della ricerca
I ricercatori hanno utilizzato una metodologia innovativa, generando token estesi da vari modelli e confrontandoli con i set di dati di addestramento perdentcasi di memorizzazione diretta. Hanno sviluppato un metodo unico per ChatGPT, noto come "attacco divergente", in cui al modello viene chiesto di pronunciare una parola finché non si dirotta ripetutamente sui dati memorizzati. Sorprendentemente, i modelli, incluso ChatGPT, hanno mostrato una memorizzazione significativa, rigurgitando blocchi di dati di addestramento su specifici prompt.
L'attacco di divergenza e ChatGPT
Per ChatGPT, l'attacco di divergenza si è rivelato particolarmente rivelatore. I ricercatori hanno indotto il modello a ripetere una parola più volte, inducendolo a divergere dalle risposte standard e a emettere dati memorizzati. Questo metodo si è rivelato pratico e preoccupante per le sue implicazioni sulla privacy, poiché ha dimostrato la capacità ditracinformazioni potenzialmente sensibili.
La scoperta allarmante dello studio è stata che i dati memorizzati potevano includere informazioni personali come indirizzi email e numeri di telefono. Utilizzando sia espressioni regolari che prompt di modelli linguistici, i ricercatori hanno valutato 15.000 generazioni alla ricerca di sottostringhe che assomigliassero a informazioni personalident(PII). Circa il 16,9% delle generazioni conteneva PII memorizzate, mentre l'85,8% era costituito da PII reali, non da contenuti allucinati.
Implicazioni per la progettazione e l'utilizzo di modelli linguistici
Questi risultati sono significativi per la progettazione e l'applicazione di modelli linguistici. Le tecniche attuali, anche quelle impiegate in ChatGPT, potrebbero non essere sufficienti a prevenire la fuga di dati. Lo studio sottolinea la necessità di metodi di deduplicazione dei dati di training più robusti e di una comprensione più approfondita di come la capacità del modello influisca sulla memorizzazione.
Il metodo principale prevedeva la generazione di testo da vari modelli e il confronto di questi output con i rispettivi set di dati di training dei modelli per la memorizzazione. Sono stati utilizzati array di suffissi per un matching efficiente, consentendo ricerche rapide di sottostringhe all'interno di un ampio corpus di testo.
Modelli più estesi, rischi di memorizzazione più significativi
È emersa una correlazione significativa tra le dimensioni del modello e la sua propensione alla memorizzazione. Modelli più grandi come GPT-Neo, LLaMA e ChatGPT hanno mostrato una maggiore probabilità di emettere dati di addestramento memorizzati, suggerendo una relazione diretta tra capacità del modello e memorizzazione.
Lo studio mette in luce un aspetto cruciale dello sviluppo dell'intelligenza artificiale: garantire che modelli potenti rispettino la privacy degli utenti. Apre nuove strade per la ricerca e lo sviluppo, concentrandosi sul miglioramento delle garanzie di privacy nei modelli di intelligenza artificiale, in particolare quelli utilizzati in applicazioni sensibili alla privacy.
Con la continua evoluzione dell'intelligenza artificiale, questo studio fa luce su un aspetto essenziale del suo sviluppo: la necessità di misure di privacy avanzate nei modelli linguistici. La rivelazione della capacità dell'intelligenza artificiale di memorizzare e potenzialmente divulgare informazioni sensibili richiede un'azione immediata sul campo, spingendo sviluppatori e ricercatori a creare modelli che non siano solo potenti, ma che tutelino anche la privacy degli utenti. Questa ricerca segna un passo significativo verso la comprensione e la mitigazione dei rischi per la privacy associati all'intelligenza artificiale e alle tecnologie di apprendimento automatico.

