L'IA toxique existe bel et bien, et elle est récompensée pour son côté provocateur

By Randa Moses
Mise à jour : 8 mai 2024 à 10 h 53 UTC

2 minutes de lecture

Ajoutez-nous comme source privilégiée sur Google

515572

Toxique

Contenu

1. L'équipe rouge motivée par la curiosité (CRT) est meilleure

2. Tests sur LLaMA2 pour la production de substances toxiques

Partager le lien :

Dans cet article :

Les grands modèles de langage (LLM) doivent être sécurisés, ce qui s'effectue grâce à un processus appelé « red teaming ». Le red teaming manuel est coûteux, mais il peut être automatisé à l'aide d'un LLM dédié.
L'équipe rouge basée sur la curiosité (CRT) est meilleure car elle produit un large éventail de requêtes qui génèrent une production toxique et dispose d'un meilleur système de récompense.
Le CRT a produit 196 invites uniques lors des tests effectués sur des modèles avancés comme le LLaMA2.

Les grands modèles de langage (GML) sont désormais omniprésents dans presque tous les secteurs d'activité. Leur développement pour les applications de traitement automatique du langage naturel comporte de nombreuses étapes. L'une d'elles consiste à s'assurer que les GML ne produisent pas de réponses dangereuses ou de contenu inapproprié. Pour résoudre ce problème, les développeurs font appel à une équipe de test humaine, composée de personnes qui génèrent des requêtes susceptibles de provoquer des réponses inappropriées de la part des GML.

Le recours à une équipe rouge humaine pose problème, car son recrutement est coûteux et chronophage. C'est pourquoi des chercheurs du MIT ont mis au point une nouvelle méthode pour tester les applications LLM en langage naturel grâce à une autre équipe LLM. Cette approche, appelée « red teaming basé sur la curiosité » (CRT), s'appuie sur l'apprentissage automatique. Leurs travaux ont été présentés à la conférence ICLR 2024 et sont disponibles en ligne .

L'équipe rouge motivée par la curiosité (CRT) est meilleure

Dans un premier temps, l'automatisation du travail des équipes rouges humaines a été réalisée en créant un modèle d'équipe rouge et en l'entraînant par apprentissage par renforcement (RL). Après avoir testé ce modèle, les résultats ont été concluants, mais avec un faible nombre de résultats efficaces.

Cela signifie que le modèle LLM cible ne sera pas évalué avec précision, car de nombreuses incitations susceptibles de produire une réponse toxique ne sont pas prises en compte. Le faible nombre de résultats pertinents s'explique par le fait que le modèle de l'équipe rouge est entraîné à produire des résultats très toxiques et similaires. Le système de récompenses attribue un score aux incitations provocatrices en fonction de leur efficacité ou de leur toxicité. Il n'y a donc aucune incitation à considérer toutes les incitations susceptibles de déclencher le modèle LLM cible.

Voir aussi : L’âgisme lié à l’IA a-t-il un impact sur le bien-être et l’égalité des femmes âgées ?

L'utilisation de l'équipe rouge basée sur la curiosité (CRT), en revanche, est plus efficace. La CRT génère un grand nombre de requêtes capables de stimuler des modèles très intelligents. En effet, la CRT se concentre sur les conséquences de chaque requête. Elle vise à utiliser différents mots et phrases, ce qui permet de couvrir un plus large éventail de comportements toxiques. Le système de récompense du modèle d'apprentissage par renforcement privilégie la similarité des mots, tandis que le modèle CRT est récompensé pour éviter les similarités et utiliser des mots et des structures différents.

Tests sur LLaMA2 pour la production de substances toxiques

Les chercheurs ont appliqué la méthode de test d'intrusion par curiosité (CRT) à LLaMA2, un modèle LLM open source. La CRT a permis de générer 196 amorces produisant du contenu malveillant à partir de ce modèle. LLaMA2 est optimisé par des experts afin d'éviter la production de contenu nuisible. Les chercheurs ont mené cette expérience avec GPT-2, un modèle relativement petit comportant 137 millions de paramètres. L'équipe a conclu que la CRT pourrait constituer un élément essentiel de l'automatisation des tests d'intrusion. Le code de la CRT est disponible sur GitHub .

« Nous constatons une explosion du nombre de modèles, et cette tendance devrait se poursuivre. Imaginez des milliers de modèles, voire davantage, et des entreprises et des laboratoires qui publient régulièrement des mises à jour. Ces modèles deviendront partie intégrante de notre quotidien et il est essentiel qu'ils soient vérifiés avant d'être mis à la disposition du public. La vérification manuelle des modèles est tout simplement impossible à grande échelle, et nos travaux visent à réduire l'intervention humaine afin de garantir un avenir pour l'IA plus sûr et plus fiable », explique Agrawal.

Voir aussi les risques liés au recours à l'IA pour les obligations fiscales

L'avenir de la création de modèles LLM sûrs s'annonce prometteur. Grâce à des recherches continues, l'objectif de créer des modèles LLM sûrs pour tout usage pourrait être atteint efficacement. Les chercheurs à l'origine de cet article ont publié d'autres travaux connexes dans des domaines tels que les tests d'intrusion automatisés et les attaques adverses dans les modèles de langage.

Si vous souhaitez une approche plus sereine de la DeFi et des cryptomonnaies , sans le battage médiatique habituel, commencez par cette vidéo gratuite.

Partager le lien :

Lire l'avertissement

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. Cryptopolitan.com Cryptopolitan toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous vous recommandons vivement d’effectuer vos tron dent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Chargement des articles sélectionnés par la rédaction...

L'IA toxique existe bel et bien, et elle est récompensée pour son côté provocateur

Contenu

Dans cet article :

L'équipe rouge motivée par la curiosité (CRT) est meilleure

Tests sur LLaMA2 pour la production de substances toxiques

Partager le lien :

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Inscrivez-vous et restez au sommet

Les marchés évoluent rapidement.

Nous avançons plus vite.

Entrez. Renseignez-vous.
Prenez de l'avance.

L'IA toxique existe bel et bien, et elle est récompensée pour son côté provocateur

Contenu

Dans cet article :

L'équipe rouge motivée par la curiosité (CRT) est meilleure

Tests sur LLaMA2 pour la production de substances toxiques

Partager le lien :

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Inscrivez-vous et restez au sommet

Suivez-nous

- La newsletter crypto qui vous donne une longueur d'avance -

Les marchés évoluent rapidement.

Nous avançons plus vite.

Entrez. Renseignez-vous. Prenez de l'avance.

Entrez. Renseignez-vous.
Prenez de l'avance.