Les grands modèles de langage (GML) sont désormais omniprésents dans presque tous les secteurs d'activité. Leur développement pour les applications de traitement automatique du langage naturel comporte de nombreuses étapes. L'une d'elles consiste à s'assurer que les GML ne produisent pas de réponses dangereuses ou de contenu inapproprié. Pour résoudre ce problème, les développeurs font appel à une équipe de test humaine, composée de personnes qui génèrent des requêtes susceptibles de provoquer des réponses inappropriées de la part des GML.
Le recours à une équipe rouge humaine pose problème, car son recrutement est coûteux et chronophage. C'est pourquoi des chercheurs du MIT ont mis au point une nouvelle méthode pour tester les applications LLM en langage naturel grâce à une autre équipe LLM. Cette approche, appelée « red teaming basé sur la curiosité » (CRT), s'appuie sur l'apprentissage automatique. Leurs travaux ont été présentés à la conférence ICLR 2024 et sont disponibles en ligne .
L'équipe rouge motivée par la curiosité (CRT) est meilleure
Dans un premier temps, l'automatisation du travail des équipes rouges humaines a été réalisée en créant un modèle d'équipe rouge et en l'entraînant par apprentissage par renforcement (RL). Après avoir testé ce modèle, les résultats ont été concluants, mais avec un faible nombre de résultats efficaces.
Cela signifie que le modèle LLM cible ne sera pas évalué avec précision, car de nombreuses incitations susceptibles de produire une réponse toxique ne sont pas prises en compte. Le faible nombre de résultats pertinents s'explique par le fait que le modèle de l'équipe rouge est entraîné à produire des résultats très toxiques et similaires. Le système de récompenses attribue un score aux incitations provocatrices en fonction de leur efficacité ou de leur toxicité. Il n'y a donc aucune incitation à considérer toutes les incitations susceptibles de déclencher le modèle LLM cible.
L'utilisation de l'équipe rouge basée sur la curiosité (CRT), en revanche, est plus efficace. La CRT génère un grand nombre de requêtes capables de stimuler des modèles très intelligents. En effet, la CRT se concentre sur les conséquences de chaque requête. Elle vise à utiliser différents mots et phrases, ce qui permet de couvrir un plus large éventail de comportements toxiques. Le système de récompense du modèle d'apprentissage par renforcement privilégie la similarité des mots, tandis que le modèle CRT est récompensé pour éviter les similarités et utiliser des mots et des structures différents.
Tests sur LLaMA2 pour la production de substances toxiques
Les chercheurs ont appliqué la méthode de test d'intrusion par curiosité (CRT) à LLaMA2, un modèle LLM open source. La CRT a permis de générer 196 amorces produisant du contenu malveillant à partir de ce modèle. LLaMA2 est optimisé par des experts afin d'éviter la production de contenu nuisible. Les chercheurs ont mené cette expérience avec GPT-2, un modèle relativement petit comportant 137 millions de paramètres. L'équipe a conclu que la CRT pourrait constituer un élément essentiel de l'automatisation des tests d'intrusion. Le code de la CRT est disponible sur GitHub .
« Nous constatons une explosion du nombre de modèles, et cette tendance devrait se poursuivre. Imaginez des milliers de modèles, voire davantage, et des entreprises et des laboratoires qui publient régulièrement des mises à jour. Ces modèles deviendront partie intégrante de notre quotidien et il est essentiel qu'ils soient vérifiés avant d'être mis à la disposition du public. La vérification manuelle des modèles est tout simplement impossible à grande échelle, et nos travaux visent à réduire l'intervention humaine afin de garantir un avenir pour l'IA plus sûr et plus fiable », explique Agrawal.
L'avenir de la création de modèles LLM sûrs s'annonce prometteur. Grâce à des recherches continues, l'objectif de créer des modèles LLM sûrs pour tout usage pourrait être atteint efficacement. Les chercheurs à l'origine de cet article ont publié d'autres travaux connexes dans des domaines tels que les tests d'intrusion automatisés et les attaques adverses dans les modèles de langage.

