In una recente indagine condotta dallo Stanford Internet Observatory (SIO), centinaia di immagini note di materiale pedopornografico (CSAM) sono statedentin un dataset aperto utilizzato per l'addestramento di modelli di intelligenza artificiale (IA) popolari per la generazione di testo in immagini, tra cui Stable Diffusion. I risultati hanno fatto luce sull'inquietante utilizzo di dataset accessibili al pubblico nello sviluppo di modelli avanzati di intelligenza artificiale (IA).
Scoprire fonti di dati di formazione inquietanti
L'indagine del SIO ha rivelato che questi modelli di intelligenza artificiale sono stati addestrati direttamente sui contenuti pedopornografici presenti nel dataset LAION-5B, che comprende miliardi di immagini provenienti da diverse piattaforme, tra cui i principali social media e i popolari siti di video per adulti. La rivelazione solleva preoccupazioni circa la perpetuazione involontaria dello sfruttamento minorile attraverso l'uso di dataset contaminati da contenuti illegali e dannosi.
Azioni rapide per affrontare il problema
Dopo averdentil materiale sorgente, i ricercatori hanno avviato il processo di rimozione segnalando gli URL delle immagini al National Center for Missing and Exploited Children (NCMEC) negli Stati Uniti e al Canadian Centre for Child Protection (C3P). L'uso di strumenti di hashing, come PhotoDNA, ha svolto un ruolo cruciale nell'abbinamento delle impronte digitali delle immagini con i database gestiti da organizzazioni non profit dedicate alla lotta allo sfruttamento e all'abuso sessuale dei minori online.
Sfide nella pulizia dei set di dati aperti
Sebbene esistano metodi per ridurre al minimo la presenza di materiale pedopornografico (CSAM) nei set di dati di addestramento, il rapporto sottolinea le sfide legate alla pulizia o all'interruzione della distribuzione di set di dati aperti privi di un'autorità centrale. L'assenza di un'entità di hosting per questi set di dati complica gli sforzi per garantirne l'integrità e la sicurezza. Lo studio sottolinea la necessità di misure proattive per prevenire l'inclusione involontaria di contenuti illegali nei dati di addestramento dell'IA.
Raccomandazioni di sicurezza per la futura gestione dei set di dati
Alla luce di questi risultati, il rapporto delinea raccomandazioni di sicurezza per la raccolta di set di dati, l'addestramento di modelli e l'hosting di modelli addestrati su set di dati estratti. Si raccomanda di effettuare controlli approfonditi delle immagini rispetto agli elenchi noti di materiale pedopornografico (CSAM) utilizzando strumenti di rilevamento come PhotoDNA di Microsoft. Si raccomanda inoltre la collaborazione con organizzazioni per la sicurezza dei minori, come NCMEC e C3P, per garantire l'uso etico e legale della tecnologia di intelligenza artificiale.
Con il continuo progresso dell'intelligenza artificiale, la gestione responsabile dei set di dati di addestramento diventa fondamentale per prevenire contributi involontari ad attività illecite. L'indagine del SIO funge da campanello d'allarme per la comunità dell'intelligenza artificiale, esortando le parti interessate ad adottare misure rigorose nella cura dei set di dati, nell'addestramento dei modelli e nella collaborazione con le agenzie competenti per la protezione dei minori.
In risposta a queste rivelazioni, la comunità dell'IA è spinta a rivalutare i propri standard etici e ad adottare misure decisive per contrastare l'uso involontario di dati CSAM nei set di dati di addestramento. Implementando le misure di sicurezza raccomandate, il settore può contribuire allo sviluppo della tecnologia dell'IA in modo responsabile ed etico, tutelandosi dalle conseguenze indesiderate derivanti da fonti di dati non controllate.
I risultati dell'indagine SIO sottolineano l'importanza della vigilanza in un'epoca in cui i progressi tecnologici devono essere accompagnati da un impegno altrettantotronper lo sviluppo etico dell'IA. La collaborazione tra ricercatori, leader del settore e organizzazioni per la protezione dei minori è essenziale per garantire che la tecnologia dell'IA progredisca in modo allineato ai valori sociali e dia priorità al benessere degli individui vulnerabili.
Abuso sessuale sui minori