Um grupo de defesa dos direitos humanos revelou que geradores de imagens usaram bilhões de fotos de crianças brasileiras para treinar seus modelos de inteligência artificial sem o consentimento delas. A Human Rights Watch (HRW) realizou uma pesquisa que mostra que geradores de imagens populares, como o Stable Diffusion, usaram imagens de crianças "abrangendo toda a sua infância" para treinar seus modelos.
Leia também: Empresas de tecnologia são instadas a combater o aumento de material de abuso sexual infantil gerado por IA
O estudo da HRW revela que essas imagens foram tiradas em cerca de 10 estados brasileiros. O relatório indica que essas fotos representam um enorme “risco à privacidade das crianças”, pois o ato também aumenta a produção de imagens não consensuais com a sua semelhança.
Bilhões de imagens de crianças brasileiras são usadas para treinar modelos de IA
A pesquisadora da HRW, Hye Jung Han, expôs o problema após analisar uma fração (menos de 0,0001%) do LAION-5B, um conjunto de dados construído a partir de capturas de tela do Common Crawl na web pública. Ela revelou que o conjunto de dados não continha as fotos em si, mas sim "pares de texto e imagem" extraídos de quase 6 bilhões de fotos e legendas publicadas desde 2008.
Foram encontradas fotos de crianças de 10 estados brasileiros, a maioria delas fotos de família publicadas em blogs pessoais e de pais. Segundo a reportagem, são imagens que os internautas não encontram facilmente.
Leia também: Reino Unido declarará a criação de deepfakes com conteúdo sexual explícito como crime.
A HRW removeu os links para as imagens em colaboração com a LAION , a organização alemã sem fins lucrativos que criou o conjunto de dados. Ainda persistem as preocupações de que o conjunto de dados possa continuar a fazer referência a imagens de crianças de todo o mundo, uma vez que a remoção dos links por si só não resolve completamente o problema.
“Este é um problema maior e muito preocupante e, como organização de voluntários, faremos a nossa parte para ajudar”, disse Nate Tyler, porta-voz da LAION, ao Ars.
Asdentdas crianças são facilmente trac
O relatório da HRW revelou ainda que asdentde muitas crianças brasileiras poderiam ser trac, uma vez que seus nomes e locais foram usados nas legendas que compuseram o conjunto de dados. O relatório também expressou preocupação com o risco de as crianças serem alvo de bullying e de suas imagens serem usadas para conteúdo explícito.
“As fotos analisadas abrangem toda a infância”, diz um trecho do relatório.
“Elas capturam momentos íntimos de bebês nascendo nas mãos enluvadas de médicos, crianças pequenas soprando as velas do cake de aniversário ou dançando de roupa íntima em casa…”
HRW.
Han, no entanto, revelou que "todas as versões publicamente disponíveis do LAION-5B foram removidas" e, portanto, o risco de as fotos das crianças brasileiras serem usadas é menor agora.
Segundo a HRW, o conjunto de dados não estará disponível novamente até que a LAION tenha certeza de que todo o conteúdo sinalizado foi removido. A decisão foi tomada após um relatório também ter "encontrado links no conjunto de dados que apontavam para conteúdo ilegal na internet pública", incluindo mais de 3.000 casos suspeitos de de abuso sexual infantil .
Pelo menos 85 meninas no Brasil também relataram que seus colegas de classe as assediaram usando inteligência artificial para gerar conteúdo deepfake sexualmente explícito "com base em fotos tiradas de suas redes sociais"
Proteger a privacidade das crianças
Segundo o Ars Technica , o LAION-5B foi lançado em 2022, supostamente para replicar o conjunto de dados da OpenAI, e foi anunciado como o maior "conjunto de dados de imagem e texto disponível gratuitamente".
Quando a HRW contatou a LAION a respeito das imagens, a organização respondeu dizendo que os modelos de IA treinados no LAION-5B "não conseguiam reproduzir os dados das crianças palavra por palavra", embora reconhecessem os riscos à privacidade e à segurança.
A organização então começou a remover algumas imagens, mas também opinou que pais e responsáveis eram responsáveis por remover fotos pessoais de crianças da internet. Han discordou do argumento, dizendo:
“As crianças e seus pais não devem ser responsabilizados por proteger os filhos contra uma tecnologia que é fundamentalmente impossível de se proteger. Não é culpa deles.”
Han.
A HRW pediu a intervenção urgente dos legisladores brasileiros para proteger os direitos das crianças contra as tecnologias emergentes. Novas leis devem ser implementadas para proibir a extração de dados de crianças para modelos de IA, conforme as recomendações da HRW.
Reportagem Cryptopolitan de Enacy Mapakame

