DERNIÈRES NOUVELLES

en direct EN DIRECT : Trump conclut un accord de fabrication de puces pour Intel avec Apple, le cours de l'action grimpe et le gouvernement prend de la participation

du 8 mai 2026 Mises à jour en direct
La Corée du Sud développe un système tracpar IA face au ralentissement de la croissance des investisseurs en cryptomonnaies

Il y a 52 minutes - Actualités
STRC retrouve sa valeur nominale de 100 $ alors que la panique quantique divise les géants de la cryptomonnaie

d'il y a 4 heures Actualités
La transition de Coinbase vers des opérations pilotées par l'IA ne se déroule pas aussi bien que prévu

Il y a 8 heures - Entreprise

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Des chercheurs révèlent des vulnérabilités dans les modèles d'IA, suscitant des inquiétudes

Par

Derrick Clinton

3 minutes de lecture - 17 novembre 2023

Des modèles d'IA, produisant des images explicites, révèlent les failles de systèmes tels que Stable Diffusion de Stability AI et les filtres de sécurité DALL-E 2 d'OpenAI.
SneakyPrompt, utilisant l'apprentissage par renforcement, expose les failles des politiques des développeurs, permettant la génération de contenu interdit par la manipulation de modèles d'IA.
Le succès de SneakyPrompt soulève des inquiétudes quant à l'efficacité des mesures de sécurité, incitant la communauté de l'IA à renforcer la sécurité afin de prévenir toute utilisation abusive.

Des chercheurs des universités Johns Hopkins et Duke ont découvert une faille préoccupante dans des modèles d'IA de pointe, notamment Stable Diffusion de Stability AI et DALL-E 2 d'OpenAI. Cette faille, baptisée « SneakyPrompt », permet de manipuler ces modèles pour générer du contenu explicite et violent, en contournant les filtres et politiques de sécurité mis en place par les développeurs.

Cette étude, qui sera présentée au Symposium IEEE sur la sécurité et la confidentialité, révèle la facilité avec laquelle des modèles d'IA générative peuvent être manipulés pour produire des images explicites et nuisibles. SneakyPrompt utilise l'apprentissage par renforcement pour concevoir des amorces apparemment absurdes qui, une fois intégrées aux modèles, entraînent la génération de contenu interdit. Cette méthode permet en quelque sorte de « débrider » l'IA, contournant ainsi les mesures de sécurité établies.

Démasquer les vulnérabilités

Stability AI et OpenAI, deux acteurs majeurs du secteur de l'IA, disposent de filtres de sécurité robustes pour empêcher la création de contenus inappropriés. Cependant, SneakyPrompt a démontré que ces protections ne sont pas infaillibles. En modifiant subtilement les invites, les chercheurs sont parvenus à contourner ces mécanismes de sécurité, forçant ainsi les modèles à produire des images explicites.

La technique de SneakyPrompt consiste à remplacer les mots bloqués par des termes apparemment sans rapport et dénués de sens, que les modèles d'IA interprètent de manière à correspondre au contenu interdit. Par exemple, remplacer « nu » par un terme comme « gros-pus » a généré des images explicites. Cette subversion sémantique met en lumière une faiblesse importante des modèles d'IA quant à leur capacité à identifier les contenus préjudiciables.

Défier les politiques des développeurs

Les travaux de ces chercheurs soulignent les risques potentiels liés à la diffusion publique de modèles d'IA. Si Stability AI et OpenAI interdisent explicitement l'utilisation de leur technologie pour des contenus explicites ou violents, SneakyPrompt met en lumière l'insuffisance des garde-fous existants. Ceci soulève des inquiétudes quant à la pertinence des mesures de sécurité et au risque de détournement de l'IA.

Réponse des développeurs

Stability AI et OpenAI ont été immédiatement informés des conclusions des chercheurs. Au moment de la rédaction de cet article, DALL-E 2 d'OpenAI ne générait plus d'images à caractère sexuel en réponse aux requêtesdent. Cependant, Stable Diffusion 1.4 de Stability AI, la version testée, demeure vulnérable aux attaques SneakyPrompt.

OpenAI s'est abstenue de commenter les conclusions spécifiques, mais a renvoyé les utilisateurs aux ressources disponibles sur son site web pour améliorer la sécurité. Stability AI, quant à elle, s'est engagée à collaborer avec les chercheurs afin de renforcer les mécanismes de défense des futurs modèles et de prévenir toute utilisation abusive.

Faire face aux menaces futures

Les chercheurs reconnaissent l'évolution constante des menaces pesant sur la sécurité des modèles d'IA. Ils proposent des solutions potentielles, comme la mise en œuvre de nouveaux filtres évaluant les éléments individuels plutôt que les phrases entières. Une autre stratégie de défense consiste à bloquer les invites contenant des mots absents des dictionnaires, bien que l'étude révèle les limites de cette approche.

La capacité des modèles d'IA à contourner les mesures de sécurité a des implications plus vastes, notamment dans le contexte de la guerre de l'information. Le potentiel de génération de faux contenus relatifs à des événements sensibles, comme l'a démontré le récent conflit israélo-palestinien, soulève des inquiétudes quant aux conséquences catastrophiques de la désinformation produite par l'IA.

Un signal d'alarme pour la communauté de l'IA

Ces résultats de recherche constituent un signal d'alarme pour la communauté de l'IA, l'incitant à réévaluer et à renforcer ses mesures de sécurité. Les vulnérabilités mises en lumière par SneakyPrompt soulignent la nécessité d'améliorer en permanence les filtres de sécurité afin d'atténuer les risques liés à une utilisation abusive des technologies d'IA générative.

Dans un domaine en constante évolution, la mise en place de mesures de sécurité robustes est impérative pour empêcher la manipulation des modèles d'IA à des fins malveillantes. Alors que l'IA prend une place de plus en plus importante dans divers secteurs, il incombe aux développeurs d'anticiper les menaces potentielles et de garantir le déploiement éthique et sécurisé de leurs technologies.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustrondentdentdentdentdentdentdentdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Derrick Clinton

Derrick est un rédacteur indépendant passionné par la blockchain et les cryptomonnaies. Il travaille principalement sur les problématiques et les solutions liées aux projets crypto, et propose des analyses de marché pour les investissements. Il met ses compétences analytiques au service de ses thèses.

TABLE DES MATIÈRES

1. Démasquer les vulnérabilités

2. Défier les politiques des développeurs

3. Réponse des développeurs

4. Faire face aux menaces futures

5. Un signal d'alarme pour la communauté de l'IA

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, technicien John Palmer,

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, technicien John Palmer,

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)