Une organisation de défense des droits humains a révélé que des générateurs d'images ont utilisé des milliards de photos d'enfants brésiliens pour entraîner leurs modèles d'intelligence artificielle sans leur consentement. Human Rights Watch (HRW) a mené une enquête montrant que des générateurs d'images populaires comme Stable Diffusion ont utilisé des images d'enfants « couvrant toute leur enfance » pour entraîner leurs modèles.
À lire également : Les entreprises technologiques sont invitées à lutter contre la recrudescence des contenus pédopornographiques générés par l’IA
L'étude de HRW révèle que ces images proviennent d'une dizaine d'États brésiliens. Elle indique que ces photos représentent un grave « risque pour la vie privée des enfants » car cet acte contribue également à la production d'images non consenties les représentant.
Des milliards d'images d'enfants brésiliens utilisées pour entraîner des modèles d'IA
La chercheuse Hye Jung Han, de Human Rights Watch, a mis en lumière ce problème après avoir analysé une infime partie (moins de 0,0001 %) de LAION-5B, un ensemble de données constitué à partir d'instantanés du web public collectés par Common Crawl. Elle a révélé que cet ensemble de données ne contenait pas les photos elles-mêmes, mais des « paires image-texte » extraites de près de 6 milliards d'images et de légendes publiées depuis 2008.
Des photos d'enfants provenant de dix États brésiliens ont été découvertes, la plupart étant des photos de famille publiées sur des blogs parentaux et personnels. Selon le rapport, ce sont des photos que les internautes ne trouvent pas facilement par hasard.
À lire également : Le Royaume-Uni va criminaliser la création de deepfakes à caractère sexuel.
HRW a supprimé les liens vers les images en collaboration avec LAION , l'association allemande à but non lucratif qui a créé la base de données. Des inquiétudes persistent quant à la possibilité que cette base de données fasse encore référence à des images d'enfants du monde entier, car la suppression des liens ne résout pas entièrement le problème.
« Il s’agit d’un problème plus vaste et très préoccupant, et en tant qu’organisation de bénévoles, nous ferons notre part pour aider », a déclaré Nate Tyler, porte-parole de LAION, à Ars.
Lesdentdes enfants sont facilement trac
Le rapport de HRW a également révélé que l'dentde nombreux enfants brésiliens pourrait être trac, car leurs noms et leurs lieux de résidence figuraient dans les légendes ayant servi à constituer la base de données. Il a également soulevé des inquiétudes quant au risque que ces enfants soient victimes de harcèlement scolaire, leurs images pouvant être utilisées à des fins de diffusion de contenus explicites.
« Les photos examinées couvrent toute l’enfance », peut-on lire dans le rapport.
« Elles capturent des moments intimes : des bébés qui naissent dans les mains gantées des médecins, de jeunes enfants qui soufflent les bougies de leur cake d’anniversaire ou qui dansent en sous-vêtements à la maison… »
HRW.
Han a toutefois révélé que « toutes les versions publiques de LAION-5B ont été retirées », ce qui réduit d'autant le risque que les photos des enfants brésiliens soient utilisées.
Selon HRW, les données ne seront plus accessibles tant que LAION n'aura pas la certitude que tous les contenus signalés ont été supprimés. Cette décision fait suite à un rapport qui a également « détecté dans les données des liens pointant vers des contenus illégaux sur Internet », dont plus de 3 000 cas présumés de contenus pédopornographiques
Au Brésil, au moins 85 jeunes filles ont également signalé avoir été harcelées par leurs camarades de classe au moyen d'une intelligence artificielle générant du contenu deepfake à caractère sexuel explicite « à partir de photos extraites de leurs réseaux sociaux »
Protéger la vie privée des enfants
Selon Ars , LAION-5B a été introduit en 2022, apparemment pour reproduire l'ensemble de données d'OpenAI, et a été présenté comme le plus grand « ensemble de données image-texte disponible gratuitement ».
Lorsque HRW a contacté LAION au sujet des images, l'organisation a répondu que les modèles d'IA entraînés sur LAION-5B « ne pouvaient pas reproduire les données des enfants mot pour mot », tout en reconnaissant les risques liés à la confidentialité et à la sécurité.
L'organisation a alors commencé à retirer certaines images, tout en estimant que les parents et tuteurs étaient responsables de la suppression des photos personnelles de leurs enfants sur Internet. Han a contesté cet argument, déclarant :
« On ne devrait pas faire porter aux enfants et à leurs parents la responsabilité de protéger les enfants contre une technologie contre laquelle il est fondamentalement impossible de se prémunir. Ce n'est pas de leur faute. »
Han.
Human Rights Watch (HRW) a appelé les législateurs brésiliens à intervenir d'urgence pour protéger les droits des enfants face aux nouvelles technologies. De nouvelles lois doivent être mises en place pour interdire l'utilisation des données des enfants dans les modèles d'intelligence artificielle, conformément aux recommandations de HRW.
Reportage Cryptopolitan par Enacy Mapakame

