ULTIME NOTIZIE

Alephium avverte di ritirare la liquidità fino a nuovo avviso a seguito di un attacco hacker che ha sottratto 815.000 dollari

Notizie del 30 maggio 2026
Zama: il blocco deltracintelligente cUSDC è stato un danno collaterale del ribasso di Overnight Finance

Notizie del 30 maggio 2026
L'ex veterano dell'NBA Tristan Thompson fa notizia per aver intentato una causa da 2 milioni di dollari e per aver posto fine alla vasectomia

Notizie del 30 maggio 2026
Gli hacker sottraggono 5,4 milioni di dollari dal bridge Ethereum - Cosmos di Gravity

Notizie del 30 maggio 2026

SELEZIONATO PER TE

SETTIMANALE

RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Rischi emergenti per la privacy nell'intelligenza artificiale: la sfida della memorizzazione nei modelli linguistici

John Palmer

Tempo di lettura: 2 minuti. 29 novembre 2023.

Rischio di memorizzazione dell'IA: modelli come ChatGPT possono richiamare i dati di addestramento, sollevando preoccupazioni sulla privacy.

L'attacco divergente su ChatGPT espone il potenziale rischio di fuga di dati sensibili.

I modelli di intelligenza artificiale più grandi mostrano una maggiore propensione a memorizzare e divulgare informazioni private.

Uno studio innovativo che ha coinvolto ricercatori di Google DeepMind, dell'Università di Washington, dell'Università della California a Berkeley e altri ha rivelato un aspetto sorprendente di modelli linguistici di grandi dimensioni come ChatGPT: la loro capacità di ricordare e replicare dati specifici su cui sono stati addestrati. Questo fenomeno, noto come "memorizzazione", pone notevoli problemi di privacy, soprattutto considerando che questi modelli si addestrano spesso su dati di testo vasti e diversificati, incluse informazioni potenzialmente sensibili.

Comprensione della memorizzazione della tabellatrac

Lo studio, incentrato sulla "memorizzazione delle tabelle ditrac", ha cercato di determinare se entità esterne potesserotracdati specifici appresi da questi modelli senza una conoscenza preliminare del set di addestramento. Questa memorizzazione non è solo una questione teorica; ha implicazioni concrete per la privacy.

Metodologia e risultati della ricerca

I ricercatori hanno utilizzato una metodologia innovativa, generando token estesi da vari modelli e confrontandoli con i set di dati di addestramento perdentcasi di memorizzazione diretta. Hanno sviluppato un metodo unico per ChatGPT, noto come "attacco divergente", in cui al modello viene chiesto di pronunciare una parola finché non si dirotta ripetutamente sui dati memorizzati. Sorprendentemente, i modelli, incluso ChatGPT, hanno mostrato una memorizzazione significativa, rigurgitando blocchi di dati di addestramento su specifici prompt.

L'attacco di divergenza e ChatGPT

Per ChatGPT, l'attacco di divergenza si è rivelato particolarmente rivelatore. I ricercatori hanno indotto il modello a ripetere una parola più volte, inducendolo a divergere dalle risposte standard e a emettere dati memorizzati. Questo metodo si è rivelato pratico e preoccupante per le sue implicazioni sulla privacy, poiché ha dimostrato la capacità ditracinformazioni potenzialmente sensibili.

La scoperta allarmante dello studio è stata che i dati memorizzati potevano includere informazioni personali come indirizzi email e numeri di telefono. Utilizzando sia espressioni regolari che prompt di modelli linguistici, i ricercatori hanno valutato 15.000 generazioni alla ricerca di sottostringhe che assomigliassero a informazioni personalident(PII). Circa il 16,9% delle generazioni conteneva PII memorizzate, mentre l'85,8% era costituito da PII reali, non da contenuti allucinati.

Implicazioni per la progettazione e l'utilizzo di modelli linguistici

Questi risultati sono significativi per la progettazione e l'applicazione di modelli linguistici. Le tecniche attuali, anche quelle impiegate in ChatGPT, potrebbero non essere sufficienti a prevenire la fuga di dati. Lo studio sottolinea la necessità di metodi di deduplicazione dei dati di training più robusti e di una comprensione più approfondita di come la capacità del modello influisca sulla memorizzazione.

Il metodo principale prevedeva la generazione di testo da vari modelli e il confronto di questi output con i rispettivi set di dati di training dei modelli per la memorizzazione. Sono stati utilizzati array di suffissi per un matching efficiente, consentendo ricerche rapide di sottostringhe all'interno di un ampio corpus di testo.

Modelli più estesi, rischi di memorizzazione più significativi

È emersa una correlazione significativa tra le dimensioni del modello e la sua propensione alla memorizzazione. Modelli più grandi come GPT-Neo, LLaMA e ChatGPT hanno mostrato una maggiore probabilità di emettere dati di addestramento memorizzati, suggerendo una relazione diretta tra capacità del modello e memorizzazione.

Lo studio mette in luce un aspetto cruciale dello sviluppo dell'intelligenza artificiale: garantire che modelli potenti rispettino la privacy degli utenti. Apre nuove strade per la ricerca e lo sviluppo, concentrandosi sul miglioramento delle garanzie di privacy nei modelli di intelligenza artificiale, in particolare quelli utilizzati in applicazioni sensibili alla privacy.

Con la continua evoluzione dell'intelligenza artificiale, questo studio fa luce su un aspetto essenziale del suo sviluppo: la necessità di misure di privacy avanzate nei modelli linguistici. La rivelazione della capacità dell'intelligenza artificiale di memorizzare e potenzialmente divulgare informazioni sensibili richiede un'azione immediata sul campo, spingendo sviluppatori e ricercatori a creare modelli che non siano solo potenti, ma che tutelino anche la privacy degli utenti. Questa ricerca segna un passo significativo verso la comprensione e la mitigazione dei rischi per la privacy associati all'intelligenza artificiale e alle tecnologie di apprendimento automatico.

Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza di trading. Cryptopolitan/ non si assume alcuna responsabilità per gli investimenti effettuati sulla base delle informazioni fornite in questa pagina. Consigliamotronvivamente di effettuare ricerche indipendentident di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

John Palmer

John Murangiri è entrato a far parte di Cryptopolitan forte di una solida esperienza nell'analisi di mercato. John (noto anche come JP) si è laureato in comunicazione di massa e studi sui media presso l'Università di Nairobi. In precedenza, ha contribuito con le sue analisi sul mercato delle criptovalute a InsideBitcoins.com e Metacoingraph.

INDICE

1. Comprensione della memorizzazione della tabellatrac

2. Metodologia e risultati della ricerca

3. L'attacco di divergenza e ChatGPT

4. Implicazioni per la progettazione e l'utilizzo di modelli linguistici

5. Modelli più estesi, rischi di memorizzazione più significativi

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

CORSO INTENSIVO DI CRIPTOVALUTE

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)