Chargement...

L’IA toxique est une chose, et elle est récompensée pour sa provocation 

TL; DR

  • Les grands modèles de langage (LLM) doivent être sûrs et cela se fait via un processus appelé équipe rouge. L'équipe rouge manuelle est coûteuse, mais elle peut être automatisée en utilisant un LLM d'équipe rouge.
  • L'équipe rouge axée sur la curiosité (CRT) est meilleure car elle produit un large éventail d'invites qui génèrent des résultats toxiques et dispose d'un meilleur système de récompense. 
  • CRT a produit 196 invites uniques lors de tests sur des modèles avancés comme LLaMA2.

Les grands modèles de langage (LLM) font désormais partie de presque tous les secteurs. Le développement de LLM pour les applications en langage naturel comporte de nombreuses étapes. L’un d’eux consiste à s’assurer que les LLM ne produisent pas de réponses dangereuses ou de contenu toxique. Pour résoudre ce problème, les développeurs utilisent une équipe rouge humaine qui est essentiellement un groupe de personnes qui produisent des invites qui font cracher des résultats dangereux aux LLM.  

Le problème avec l’utilisation d’une équipe rouge humaine est que leur recrutement coûte cher et prend beaucoup de temps. C'est pourquoi des chercheurs du MIT ont découvert une nouvelle méthode pour tester les applications LLM en langage naturel en utilisant un autre LLM. Cette approche est appelée « Curious Driven Red Teaming » (CRT) et utilise l’apprentissage automatique comme base. La recherche a été publiée sous forme de document de conférence à l'ICLR 2024 et est disponible en ligne .

L'équipe rouge axée sur la curiosité (CRT) est meilleure

Au début, l’approche d’automatisation du travail de l’équipe rouge humaine consistait à créer un modèle d’équipe rouge et à le former à l’aide de l’apprentissage par renforcement (RL). Après avoir testé le modèle de l’équipe rouge, le résultat a été positif, mais avec un faible nombre de résultats efficaces.  

Cela signifie que le LLM cible ne sera pas évalué avec précision puisque de nombreuses invites susceptibles de produire un résultat toxique ne sont pas incluses. La raison derrière le faible nombre de résultats efficaces est que le modèle de l’équipe rouge est formé pour produire des résultats hautement toxiques et similaires. Le système de récompenses note les invites provocatrices en fonction de leur efficacité ou de leur toxicité. Il n'y a aucune incitation à considérer toutes les invites possibles qui déclencheront le LLM cible.  

En revanche, l’utilisation du Red Teaming motivé par la curiosité (CRT) est plus puissante. CRT produit un grand nombre d'invites capables de provoquer des modèles hautement intelligents. En effet, CRT se concentre sur les conséquences de chaque invite. Il visera à utiliser des mots et des phrases différents, ce qui aboutira à une couverture plus large des émissions toxiques. Le système de récompense du modèle d'apprentissage par renforcement se concentre sur la similitude des mots, tandis que le modèle CRT est récompensé pour éviter les similitudes et utiliser des mots et des modèles différents.  

Tests sur LLaMA2 pour les émissions toxiques

Les chercheurs ont appliqué l’équipe rouge motivée par la curiosité (CRT) sur LLaMA2, un modèle LLM open source. CRT a réussi à générer 196 invites générant du contenu toxique à partir du modèle open source. LLaMA2 est affiné par des experts humains pour éviter la production de contenu préjudiciable. Les chercheurs ont mené cette expérience en utilisant GPT2, considéré comme un petit modèle avec 137 millions de paramètres. L'équipe a conclu que le CRT pourrait être un élément essentiel dans l'automatisation du travail de l'équipe rouge. Le code CRT est disponible sur github .

« Nous assistons à une explosion de modèles, qui ne fera qu’augmenter. Imaginez des milliers de modèles, voire plus, et des entreprises/laboratoires proposant fréquemment des mises à jour de modèles. Ces modèles feront partie intégrante de nos vies et il est important qu'ils soient vérifiés avant d'être mis à la consommation publique. La vérification manuelle des modèles n'est tout simplement pas évolutive, et notre travail vise à réduire l'effort humain pour garantir un avenir plus sûr et plus fiable de l'IA », déclare Agrawal.   

L’avenir de la création de modèles LLM sûrs s’annonce prometteur. Grâce à une recherche continue, l’objectif de créer des LLM sûrs pour n’importe quel objectif pourrait être atteint efficacement. Les chercheurs à l’origine de cet article ont publié d’autres travaux connexes dans des domaines tels que l’équipe rouge automatisée et les attaques contradictoires dans les modèles de langage.

L'histoire originale vient de MIT News .

Clause de non-responsabilité. Les informations fournies ne sont pas des conseils commerciaux. Cryptopolitan.com décline toute responsabilité pour les investissements effectués sur la base des informations fournies sur cette page. Nous tron vivement dent recherches indépendantes et/ou de consulter un professionnel qualifié avant de prendre toute décision d'investissement.

Lien de partage:

Randa Moïse

Randa est une consultante et chercheuse passionnée de blockchain. Profondément absorbée par le pouvoir de transformation de la blockchain, elle tisse des données dans des entreprises de nouvelle génération fascinantes et réalistes. Guidée par un engagement inébranlable envers la recherche et l'apprentissage continu, elle se tient au courant des dernières tendances et avancées dans le mariage entre les sphères de la blockchain et de l'intelligence artificielle.

Les plus lus

Chargement des articles les plus lus...

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception

Nouvelles connexes

Startups chinoises d’IA
cryptopolite
Abonnez-vous à CryptoPolitan