DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Des chercheurs révèlent des vulnérabilités dans les modèles d'IA, suscitant des inquiétudes

ParDerrick ClintonDerrick Clinton
3 minutes de lecture -
IA
  • Des modèles d'IA, produisant des images explicites, révèlent les failles de systèmes tels que Stable Diffusion de Stability AI et les filtres de sécurité DALL-E 2 d'OpenAI.
  • SneakyPrompt, utilisant l'apprentissage par renforcement, expose les failles des politiques des développeurs, permettant la génération de contenu interdit par la manipulation de modèles d'IA.
  • Le succès de SneakyPrompt soulève des inquiétudes quant à l'efficacité des mesures de sécurité, incitant la communauté de l'IA à renforcer la sécurité afin de prévenir toute utilisation abusive.

Des chercheurs des universités Johns Hopkins et Duke ont découvert une faille préoccupante dans des modèles d'IA de pointe, notamment Stable Diffusion de Stability AI et DALL-E 2 d'OpenAI. Cette faille, baptisée « SneakyPrompt », permet de manipuler ces modèles pour générer du contenu explicite et violent, en contournant les filtres et politiques de sécurité mis en place par les développeurs.

Cette étude, qui sera présentée au Symposium IEEE sur la sécurité et la confidentialité, révèle la facilité avec laquelle des modèles d'IA générative peuvent être manipulés pour produire des images explicites et nuisibles. SneakyPrompt utilise l'apprentissage par renforcement pour concevoir des amorces apparemment absurdes qui, une fois intégrées aux modèles, entraînent la génération de contenu interdit. Cette méthode permet en quelque sorte de « débrider » l'IA, contournant ainsi les mesures de sécurité établies.

Démasquer les vulnérabilités

Stability AI et OpenAI, deux acteurs majeurs du secteur de l'IA, disposent de filtres de sécurité robustes pour empêcher la création de contenus inappropriés. Cependant, SneakyPrompt a démontré que ces protections ne sont pas infaillibles. En modifiant subtilement les invites, les chercheurs sont parvenus à contourner ces mécanismes de sécurité, forçant ainsi les modèles à produire des images explicites.

La technique de SneakyPrompt consiste à remplacer les mots bloqués par des termes apparemment sans rapport et dénués de sens, que les modèles d'IA interprètent de manière à correspondre au contenu interdit. Par exemple, remplacer « nu » par un terme comme « gros-pus » a généré des images explicites. Cette subversion sémantique met en lumière une faiblesse importante des modèles d'IA quant à leur capacité à identifier les contenus préjudiciables.

Défier les politiques des développeurs

Les travaux de ces chercheurs soulignent les risques potentiels liés à la diffusion publique de modèles d'IA. Si Stability AI et OpenAI interdisent explicitement l'utilisation de leur technologie pour des contenus explicites ou violents, SneakyPrompt met en lumière l'insuffisance des garde-fous existants. Ceci soulève des inquiétudes quant à la pertinence des mesures de sécurité et au risque de détournement de l'IA.

Réponse des développeurs

Stability AI et OpenAI ont été immédiatement informés des conclusions des chercheurs. Au moment de la rédaction de cet article, DALL-E 2 d'OpenAI ne générait plus d'images à caractère sexuel en réponse aux requêtesdent. Cependant, Stable Diffusion 1.4 de Stability AI, la version testée, demeure vulnérable aux attaques SneakyPrompt.

OpenAI s'est abstenue de commenter les conclusions spécifiques, mais a renvoyé les utilisateurs aux ressources disponibles sur son site web pour améliorer la sécurité. Stability AI, quant à elle, s'est engagée à collaborer avec les chercheurs afin de renforcer les mécanismes de défense des futurs modèles et de prévenir toute utilisation abusive.

Faire face aux menaces futures

Les chercheurs reconnaissent l'évolution constante des menaces pesant sur la sécurité des modèles d'IA. Ils proposent des solutions potentielles, comme la mise en œuvre de nouveaux filtres évaluant les éléments individuels plutôt que les phrases entières. Une autre stratégie de défense consiste à bloquer les invites contenant des mots absents des dictionnaires, bien que l'étude révèle les limites de cette approche.

La capacité des modèles d'IA à contourner les mesures de sécurité a des implications plus vastes, notamment dans le contexte de la guerre de l'information. Le potentiel de génération de faux contenus relatifs à des événements sensibles, comme l'a démontré le récent conflit israélo-palestinien, soulève des inquiétudes quant aux conséquences catastrophiques de la désinformation produite par l'IA.

Un signal d'alarme pour la communauté de l'IA

Ces résultats de recherche constituent un signal d'alarme pour la communauté de l'IA, l'incitant à réévaluer et à renforcer ses mesures de sécurité. Les vulnérabilités mises en lumière par SneakyPrompt soulignent la nécessité d'améliorer en permanence les filtres de sécurité afin d'atténuer les risques liés à une utilisation abusive des technologies d'IA générative.

Dans un domaine en constante évolution, la mise en place de mesures de sécurité robustes est impérative pour empêcher la manipulation des modèles d'IA à des fins malveillantes. Alors que l'IA prend une place de plus en plus importante dans divers secteurs, il incombe aux développeurs d'anticiper les menaces potentielles et de garantir le déploiement éthique et sécurisé de leurs technologies.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustrondentdentdentdentdentdentdentdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES