L’Observatoire Internet de Stanford a fait une découverte inquiétante : plus de 1 000 images truquées d’abus sexuels sur enfants ont été retrouvées dans LAION-5B, un ensemble de données utilisé pour l’entraînement des générateurs d’images par intelligence artificielle. Cette découverte, rendue publique en avril, soulève de sérieuses questions quant aux sources et aux méthodes utilisées pour la constitution des supports d’entraînement des IA.
LAION-5B, associé au générateur d'images par IA Stable Diffusion de la société londonienne Stability AI, a collecté ces images en échantillonnant du contenu provenant des réseaux sociaux et de sites web pornographiques. La découverte de tels contenus dans des outils d'entraînement pour l'IA est alarmante, compte tenu de l'utilisation généralisée et de l'influence potentielle de ces plateformes.
Relever le défi grâce à la technologie
Dans leur tentative d'dentces images, les chercheurs de Stanford n'ont pas examiné directement le contenu abusif. Ils ont plutôt utilisé la technologie PhotoDNA de Microsoft, un outil conçu pour détecter les images pédopornographiques en comparant des images hachées à des contenus abusifs connus provenant de diverses bases de données.
Les conclusions de l'équipe de Stanford, communiquées aux organisations à but non lucratif concernées aux États-Unis et au Canada, soulignent l'urgence de renforcer les mesures de conservation des jeux de données d'entraînement pour l'IA. Les chercheurs suggèrent l'utilisation d'outils comme PhotoDNA pour les futures compilations de jeux de données afin d'éliminer les contenus nuisibles. Ils mettent toutefois en lumière les difficultés liées au nettoyage des jeux de données ouverts, notamment en l'absence d'une autorité d'hébergement centralisée.
En réponse à ce rapport, LAION (Large-scale Artificial Intelligence Open Network) a temporairement retiré ses jeux de données afin d'en garantir la sécurité avant leur republication. LAION a insisté sur sa politique de tolérance zéro à l'égard des contenus illégaux et sur la nécessité de faire preuve de la plus grande prudence dans la manipulation de ces données sensibles.
Implications et réponses plus larges
Ce problème ne se limite pas aux données en question. Le rapport de Stanford suggère que même un petit nombre d'images à caractère abusif peut avoir un impact considérable sur les outils d'IA, leur permettant de générer des milliers de deepfakes. Cela représente une menace mondiale pour les jeunes et les enfants, car non seulement cela perpétue, mais aussi amplifie les abus commis sur de véritables victimes.
La commercialisation précipitée de nombreux projets d'IA générative a été critiquée, et des experts comme David Thiel, directeur technique de l'Observatoire Internet de Stanford, préconisent une approche plus rigoureuse de la constitution des ensembles de données. Thiel souligne que cette collecte massive de données sur Internet devrait être réservée aux opérations de recherche et ne pas être diffusée en open source sans une vérification approfondie.
À la lumière de ces constats, Stability AI, un utilisateur important du jeu de données LAION, a pris des mesures pour atténuer les risques d'utilisation abusive. Les versions plus récentes de son modèle de diffusion stable ont été conçues pour rendre la création de contenu préjudiciable plus difficile. Cependant, une version plus ancienne, publiée l'année dernière, présente encore des risques et est largement utilisée dans d'autres applications.
Les réactions internationales à ce problème sont diverses. Aux États-Unis, le gouvernement lance un institut de sécurité de l'IA afin d'évaluer les risques posés par les modèles d'IA. De même, l'Australie met en œuvre de nouveaux algorithmes pour empêcher la diffusion de contenus pédopornographiques créés par l'IA. En Grande-Bretagne, les principaux développeurs d'IA ont accepté de collaborer avec les gouvernements pour tester les nouveaux modèles avant leur mise en service.
Le Sommet mondial sur la sécurité de l'IA, qui s'est tenu en Grande-Bretagne, a été l'occasion de la signature de la « Déclaration de Bletchley » par plus de 25 pays, dont les États-Unis et l'Inde, ainsi que l'Union européenne. Cet accord vise à établir une approche commune en matière de supervision de l'IA, soulignant ainsi l'engagement de la communauté internationale à gérer les risques liés à l'IA de manière responsable.
La découverte de pornographie infantile dans les ensembles de données d'entraînement de l'IA soulève de graves préoccupations éthiques et de sécurité. Elle met en lumière la nécessité de mécanismes de contrôle et de surveillance des données plus rigoureux pour le développement des technologies d'IA. À mesure que l'IA évolue et s'intègre à divers aspects de la vie, garantir l'utilisation éthique et le déploiement sûr de ces technologies devient de plus en plus crucial.

