Un gruppo di pressione ha rivelato che i generatori di immagini hanno utilizzato miliardi di immagini di bambini brasiliani per addestrare i loro modelli di intelligenza artificiale senza il loro consenso. Human Rights Watch (HRW) ha condotto una ricerca che dimostra che generatori di immagini popolari come Stable Diffusion hanno utilizzato immagini di bambini "che coprono tutta la loro infanzia" per addestrare i loro modelli.
Lo studio di HRW rivela che queste immagini sono state scattate in circa 10 stati brasiliani. Si legge che queste immagini rappresentano un enorme "rischio per la privacy dei minori", poiché la legge aumenta anche la produzione di immagini non consensuali che li ritraggono.
Miliardi di immagini di bambini brasiliani utilizzate per addestrare modelli di intelligenza artificiale
La ricercatrice HRW Hye Jung Han ha evidenziato il problema dopo aver analizzato una frazione (meno dello 0,0001%) di LAION-5B, un dataset ricavato da istantanee del web pubblico raccolte da Common Crawl. Ha rivelato che il dataset non conteneva le foto vere e proprie, ma "coppie di testo immagine" tratte da quasi 6 miliardi di foto e didascalie pubblicate dal 2008.
Sono state trovate foto di bambini provenienti da 10 stati brasiliani, la maggior parte delle quali erano foto di famiglia caricate su blog per genitori e blog personali. Secondo il rapporto, si tratta di immagini che gli utenti di Internet non trovano facilmente.
Leggi anche: Il Regno Unito dichiarerà la creazione di deepfake sessualmente espliciti un atto criminale
HRW ha rimosso i link alle immagini in collaborazione con LAION , l'organizzazione no-profit tedesca che ha creato il dataset. Permangono preoccupazioni sul fatto che il dataset possa ancora fare riferimento a immagini di bambini provenienti da tutto il mondo, poiché la sola rimozione dei link non risolve completamente il problema.
"Si tratta di un problema più ampio e preoccupante e, in quanto organizzazione di volontariato, faremo la nostra parte per aiutare", ha detto ad Ars il portavoce della LAION, Nate Tyler.
L'dentdei bambini è facilmente trac
Il rapporto dell'HRW ha inoltre rivelato che l'dentdi molti bambini brasiliani potrebbe essere trac, poiché i loro nomi e la loro posizione geografica sono stati utilizzati nelle didascalie che hanno costituito il dataset. Ha inoltre sollevato preoccupazioni sul fatto che i bambini possano essere a rischio di essere presi di mira dai bulli, mentre le loro immagini potrebbero essere utilizzate per contenuti espliciti.
"Le foto esaminate coprono l'intero arco dell'infanzia", si legge in una parte del rapporto.
“Catturano momenti intimi di neonati che nascono tra le mani guantate dei dottori, di bambini piccoli che soffiano sulle candeline della cake di compleanno o che ballano in mutande a casa…”
HRW.
Han ha tuttavia rivelato che "tutte le versioni pubbliche di LAION-5B sono state rimosse", e quindi ora c'è meno rischio che le foto dei bambini brasiliani vengano utilizzate.
Secondo HRW, il set di dati non sarà più disponibile finché LAION non avrà la certezza che tutti i contenuti segnalati siano stati rimossi. La decisione è stata presa dopo che un rapporto ha "trovato link nel set di dati che rimandano a contenuti illegali sul web pubblico", inclusi oltre 3.000 presunti casi di abusi sessuali su minori .
Almeno 85 ragazze in Brasile hanno denunciato di essere state molestate dai loro compagni di classe tramite l'uso dell'intelligenza artificiale per generare contenuti deepfake sessualmente espliciti "basati su foto prese dai loro contenuti sui social media"
Proteggere la privacy dei bambini
Secondo Ars , LAION-5B è stato introdotto nel 2022, presumibilmente per replicare il set di dati di OpenAI, ed è stato pubblicizzato come il più grande "set di dati di testo e immagini disponibile gratuitamente".
Quando HRW ha contattato LAION in merito alle immagini, l'organizzazione ha risposto affermando che i modelli di intelligenza artificiale addestrati su LAION-5B "non potevano riprodurre fedelmente i dati dei bambini", pur riconoscendo i rischi per la privacy e la sicurezza.
L'organizzazione ha quindi iniziato a rimuovere alcune immagini, ma ha anche sostenuto che genitori e tutori erano responsabili della rimozione delle foto personali dei bambini da Internet. Han non era d'accordo con la loro argomentazione, affermando:
"I bambini e i loro genitori non dovrebbero essere costretti ad assumersi la responsabilità di proteggere i propri figli da una tecnologia da cui è fondamentalmente impossibile proteggersi. Non è colpa loro."
Han.
HRW ha chiesto un intervento urgente dei legislatori brasiliani per proteggere i diritti dei bambini dalle tecnologie emergenti. È necessario che vengano emanate nuove leggi per vietare l'inserimento dei dati dei bambini nei modelli di intelligenza artificiale, come raccomandato da HRW.
Reporting Cryptopolitan di Enacy Mapakame

