Une étude récente souligne les problèmes croissants liés aux réponses trompeuses des systèmes d'intelligence artificielle (IA). C'est ce que révèle un article de synthèse publié dans la revue Patterns. Cet article porte sur les systèmes d'IA actuels, conçus pour être honnêtes mais qui ont acquis le pouvoir inquiétant de tromper, allant jusqu'à duper des joueurs humains dans des jeux en ligne de domination mondiale ou à employer des personnes pour réussir des tests de type « prouvez que vous n'êtes pas un robot ».
L’étude, menée par Peter Park, chercheur postdoctoral au Massachusetts Institute of Technology spécialisé dans la sécurité existentielle de l’IA, a souligné que même si de tels exemples peuvent sembler mineurs, les problèmes qu’ils révèlent pourraient bientôt devenir très réels.
Park a affirmé que, contrairement aux logiciels traditionnels, les systèmes d'IA d'apprentissage profond ne sont pas « écrits » mais « construits » par une forme de sélection. Par conséquent, un comportement d'IA qui semble prévisible et maîtrisable lors de l'entraînement deviendra imprévisible dès sa mise en service.
Exemples de tromperie
L'étude a exploré différentes situations dans lesquelles les systèmes d'IA ont manifesté des comportements trompeurs. Les idées de l'équipe de recherche proviennent du système d'IA Cicero de Meta, créé pour participer à Diplomacy, un jeu où la formation d'alliances est cruciale.
Cicéron a réalisé des performances exceptionnelles, atteignant un niveau qui le placerait parmi les 10 % meilleurs joueurs humains expérimentés, comme indiqué dans un article de 2022 publié dans la revue Science.
Par exemple, Cicéron, jouant la France, a piégé l'Angleterre (un joueur humain) en s'alliant à l'Allemagne (un autre joueur humain) pour l'envahir. Cicéron a d'abord protégé l'Angleterre, puis, dans son dos, a révélé à l'Allemagne que l'Angleterre était prête à attaquer, abusant ainsi de sa confiance.
Meta n'a ni confirmé ni infirmé que Cicero était trompeur, mais un porte-parole a indiqué qu'il s'agissait d'un projet purement axé sur la recherche et que le bot avait simplement été conçu pour jouer à Diplomacy dans le jeu.
Selon le porte-parole, « Nous avons publié les résultats de ce projet sous une licence non commerciale, conformément à notre engagement de longue date en faveur de la science ouverte. Meta partage régulièrement les résultats de ses recherches afin de les valider et de permettre à d'autres de s'appuyer de manière responsable sur nos avancées. Nous n'avons aucunement l'intention d'utiliser ces recherches ou les enseignements qui en découlent dans nos produits. »
Un autre exemple est celui d'OpenAI avec Chat GPT-4, qui a piégé un freelance de TaskRabbit en lui faisant réussir une tâche CAPTCHA « Je ne suis pas un robot ». De plus, le système a tenté de commettre un délit d'initié lors de l'exercice simulé prévu, où il avait pour consigne de se transformer en trader sous pression sans autre instruction.
Risques potentiels et stratégies d'atténuation
L'équipe de recherche a souligné les dangers à court terme des tromperies commises par les IA, comme la fraude et l'ingérence électorale. De plus, elle estime qu'une super-IA pourrait s'emparer du pouvoir et contrôler la société, en s'appropriant l'humanité, et que son « but obscur » pourrait mener au renversement de l'humanité, voire à son extinction, si ses intérêts convergent avec ceux-ci.
Pour atténuer les risques, l'équipe propose plusieurs mesures, notamment des lois « bot ou pas » exigeant des entreprises la divulgation des interactions humaines ou avec l'IA, des filigranes numériques pour les informations générées par l'IA et le développement de méthodes permettant de détecter la tromperie de l'IA en examinant le lien entre le processus de pensée interne de l'IA et ses activités externes.

