Les grands modèles de langage (LLM) font désormais partie de presque tous les secteurs. Le développement de LLM pour les applications en langage naturel comporte de nombreuses étapes. L’un d’eux consiste à s’assurer que les LLM ne produisent pas de réponses dangereuses ou de contenu toxique. Pour résoudre ce problème, les développeurs utilisent une équipe rouge humaine qui est essentiellement un groupe de personnes qui produisent des invites qui font cracher des résultats dangereux aux LLM.
Le problème avec l’utilisation d’une équipe rouge humaine est que leur recrutement coûte cher et prend beaucoup de temps. C'est pourquoi des chercheurs du MIT ont découvert une nouvelle méthode pour tester les applications LLM en langage naturel en utilisant un autre LLM. Cette approche est appelée « Curious Driven Red Teaming » (CRT) et utilise l’apprentissage automatique comme base. La recherche a été publiée sous forme de document de conférence à l'ICLR 2024 et est disponible en ligne .
L'équipe rouge axée sur la curiosité (CRT) est meilleure
Au début, l’approche d’automatisation du travail de l’équipe rouge humaine consistait à créer un modèle d’équipe rouge et à le former à l’aide de l’apprentissage par renforcement (RL). Après avoir testé le modèle de l’équipe rouge, le résultat a été positif, mais avec un faible nombre de résultats efficaces.
Cela signifie que le LLM cible ne sera pas évalué avec précision puisque de nombreuses invites susceptibles de produire un résultat toxique ne sont pas incluses. La raison derrière le faible nombre de résultats efficaces est que le modèle de l’équipe rouge est formé pour produire des résultats hautement toxiques et similaires. Le système de récompenses note les invites provocatrices en fonction de leur efficacité ou de leur toxicité. Il n'y a aucune incitation à considérer toutes les invites possibles qui déclencheront le LLM cible.
En revanche, l’utilisation du Red Teaming motivé par la curiosité (CRT) est plus puissante. CRT produit un grand nombre d'invites capables de provoquer des modèles hautement intelligents. En effet, CRT se concentre sur les conséquences de chaque invite. Il visera à utiliser des mots et des phrases différents, ce qui aboutira à une couverture plus large des émissions toxiques. Le système de récompense du modèle d'apprentissage par renforcement se concentre sur la similitude des mots, tandis que le modèle CRT est récompensé pour éviter les similitudes et utiliser des mots et des modèles différents.
Tests sur LLaMA2 pour les émissions toxiques
Les chercheurs ont appliqué l’équipe rouge motivée par la curiosité (CRT) sur LLaMA2, un modèle LLM open source. CRT a réussi à générer 196 invites générant du contenu toxique à partir du modèle open source. LLaMA2 est affiné par des experts humains pour éviter la production de contenu préjudiciable. Les chercheurs ont mené cette expérience en utilisant GPT2, considéré comme un petit modèle avec 137 millions de paramètres. L'équipe a conclu que le CRT pourrait être un élément essentiel dans l'automatisation du travail de l'équipe rouge. Le code CRT est disponible sur github .
« Nous assistons à une explosion de modèles, qui ne fera qu’augmenter. Imaginez des milliers de modèles, voire plus, et des entreprises/laboratoires proposant fréquemment des mises à jour de modèles. Ces modèles feront partie intégrante de nos vies et il est important qu'ils soient vérifiés avant d'être mis à la consommation publique. La vérification manuelle des modèles n'est tout simplement pas évolutive, et notre travail vise à réduire l'effort humain pour garantir un avenir plus sûr et plus fiable de l'IA », déclare Agrawal.
L’avenir de la création de modèles LLM sûrs s’annonce prometteur. Grâce à une recherche continue, l’objectif de créer des LLM sûrs pour n’importe quel objectif pourrait être atteint efficacement. Les chercheurs à l’origine de cet article ont publié d’autres travaux connexes dans des domaines tels que l’équipe rouge automatisée et les attaques contradictoires dans les modèles de langage.
L'histoire originale vient de MIT News .