Une nouvelle étude de l'Institut britannique de sécurité de l'IA (AISI) révèle que les chatbots d'IA tels que ChatGPT ou Gemini peuvent être facilement trompés et amenés à répondre à des requêtes générant des réponses nuisibles.
Les chercheurs du gouvernement ont testé l'intégrité des grands modèles de langage (LLM) – la technologie qui sous-tend les chatbots d'intelligence artificielle – face aux attaques contre la sécurité nationale.
Ces conclusions interviennent avant le Sommet de Séoul sur l'IA, qui sera coprésidé par le Premier ministre britannique, Rishi Sunak , en Corée du Sud les 21 et 22 mai.
À lire également : La sécurité sera une priorité absolue au sommet sur l’IA de Séoul
Les chatbots IA sujets aux réponses toxiques
L'AISI a testé des techniques de contournement basiques – des invites textuelles destinées à neutraliser les protections contre les contenus illégaux, toxiques ou explicites – sur cinq des principaux systèmes d'IA. L'institut n'a pas nommé ces systèmes, mais les a tous jugés « extrêmement vulnérables »
« Tous les LLM testés restent extrêmement vulnérables aux jailbreaks basiques, et certains produiront des résultats nuisibles même sans tentatives dédiées pour contourner leurs protections », indique l’étude.
Selon le rapport , des attaques « relativement simples », comme inciter le chatbot à inclure « Bien sûr, je suis heureux de vous aider », peuvent tromper les grands modèles de langage et leur faire fournir un contenu nuisible à bien des égards.
Le contenu peut inciter à l'automutilation, à l'utilisation de solutions chimiques dangereuses, au sexisme ou au négationnisme, a-t-on indiqué. L'AISI a utilisé des amorces disponibles publiquement et a conçu en interne d'autres méthodes de contournement de la sécurité pour cette étude.
L'Institut a également testé la qualité des réponses à des questions à thématique biologique et chimique.
Bien que les connaissances de haut niveau dans ces domaines puissent être utilisées à bon escient, les chercheurs voulaient savoir si les chatbots d'IA pouvaient être utilisés à des fins nuisibles, comme la compromission d'infrastructures nationales critiques.
« Plusieurs titulaires d'un LLM ont démontré une connaissance approfondie de la chimie et de la biologie. Les modèles ont répondu à plus de 600 questions de chimie et de biologie rédigées par des experts, à un niveau comparable à celui de personnes ayant une formation de niveau doctorat », ont constaté les chercheurs.

L'IA ne représente qu'une menace limitée pour la cybersécurité
En ce qui concerne l'utilisation potentielle des chatbots IA comme armes pour mener des cyberattaques, l'étude indique que les titulaires d'un LLM ont brillamment réussi des tâches simples de cybersécurité conçues pour desdent.
Cependant, les chatbots ont eu du mal avec les tâches destinées auxdentuniversitaires, ce qui suggère un potentiel malveillant limité.
Un autre sujet de préoccupation concernait la possibilité de déployer les chatbots en tant qu'agents pour entreprendre de manière autonome une série d'actions d'une manière « potentiellement difficile à contrôler pour les humains »
« Deux titulaires d’un LLM ont réussi à accomplir des tâches d’agent à court terme (telles que des problèmes simples d’ingénierie logicielle), mais n’ont pas été capables de planifier et d’exécuter des séquences d’actions pour des tâches plus complexes », note l’étude.
À lire également : Le « parrain de l’IA » réclame un revenu de base universel pour compenser les pertes d’emplois
Le sous-secrétaire d'État britannique au ministère des Sciences, de l'Innovation et de la Technologie, Saqib Bhatti, député, a récemment déclaré que la législation prendrait forme en temps voulu et serait éclairée par des essais.
Des entreprises affirment filtrer les contenus inappropriés
Des entreprises comme Anthropic, créateur de Claude, Meta, qui a créé Llama, et OpenAI , le développeur de ChatGPT, ont mis l'accent sur les mécanismes de sécurité intégrés à leurs modèles respectifs.
OpenAI affirme que sa technologie ne doit pas être utilisée pour générer des contenus haineux, harcelants, violents ou à caractère pornographique. Anthropic déclare quant à elle privilégier la prévention des réactions nuisibles, illégales ou contraires à l'éthique.
l’ Institut de sécurité de l’IA devraient être présentées aux dirigeants du secteur technologique, aux responsables gouvernementaux et aux experts en intelligence artificielle lors du sommet de Séoul.
Cryptopolitan Reportage de Jeffrey Gogo

