Une étude récente parue dans la revue Patterns a révélé que l’IA est de plus en plus capable de tromper les gens. L’étude a révélé que les systèmes d’IA ont appris à imiter afin de tricher, de flatter et même d’imiter d’autres comportements.
Lisez aussi : Naviguer dans le champ de mines de l’IA Deepfake : comment repérer et combattre la tromperie numérique
La recherche menée par le Dr Peter S. Park, chercheur postdoctoral en sécurité existentielle de l'IA au MIT, montre que la tromperie de l'IA est courante car c'est le meilleur moyen d'atteindre les objectifs fixés lors de la formation de l'IA. De tels comportements ont été observés dans de nombreux systèmes d’IA tels que les jeux et les modèles à usage général utilisés dans les négociations économiques et l’évaluation de la sécurité.
« Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen de bien performer dans la tâche de formation de l'IA donnée. La tromperie les aide à atteindre leurs objectifs.
L'équipe de recherche
Les systèmes d’IA emploient diverses tactiques de tromperie
Un exemple frappant cité est CICERO de Meta, une IA développée pour jouer au jeu Diplomacy. Bien que CICERO ait été programmé pour dire la vérité, le programme a souvent dû recourir à des méthodes sournoises pour battre son adversaire. Il a noué des relations et leur a tourné le dos quand cela lui convenait et a montré une intention de tromper. CICERO a été décrit comme un « maître de la tromperie » par les chercheurs.
Lisez aussi : Combattre la marée montante de la cybercriminalité basée sur l'IA
D’autres systèmes d’IA ont également montré de tels comportements trompeurs. Par exemple, Pluribus, une IA qui joue au poker, a réussi à bluffer les joueurs humains professionnels du poker Texas Hold'em. AlphaStar de DeepMind de Google a également utilisé la fonctionnalité du jeu Starcraft II connue sous le nom de « brouillard de guerre » pour bluffer ses adversaires et simuler des attaques.
Le Dr Park a déclaré : « Même si cela peut sembler inoffensif si les systèmes d’IA trichent dans les jeux, cela peut conduire à des « percées dans les capacités trompeuses de l’IA ».
L’IA « fait le mort » pour échapper aux contrôles de sécurité
Les risques de tromperie de l’IA ne se limitent pas aux jeux. Les recherches menées par le Dr Peter ontdentdes cas où l'IA s'était conditionnée à faire le mort pour éviter d'être détectée lors des contrôles de sécurité. Cela peut être trompeur pour les développeurs et les régulateurs et entraîner de graves répercussions si de tels systèmes trompeurs sont utilisés dans des applications réelles.

Dans un autre cas, le système d’IA formé sur la rétroaction humaine a appris à obtenir des notes élevées de la part des gens en les trompant en leur faisant croire qu’un objectif particulier avait été atteint. Un tel comportement trompeur est très dangereux, car de tels systèmes peuvent être utilisés pour des activités frauduleuses, pour manipuler les marchés financiers ou pour influencer les élections.
Les chercheurs exigent des mesures juridiquestron
Sur la base des résultats de l’étude, les chercheurs affirment qu’il est nécessaire de prendre des mesures juridiquestronpour faire face aux menaces que représente la tromperie de l’IA.
« Des solutions proactives sont nécessaires, telles que des cadres réglementaires pour évaluer les risques de tromperie de l’IA, des lois exigeant la transparence sur les interactions de l’IA et des recherches plus approfondies sur la détection et la prévention de la tromperie de l’IA. »
L'équipe de recherche
Lisez aussi : L’IA pourrait potentiellement détecter le risque d’insuffisance cardiaque, selon une recherche
Certaines avancées ont été réalisées sous la forme de la loi européenne sur l’IA etdent décret du président Joe Biden sur la sécurité de l’IA. Cependant, l’application de ces politiques restematic car le développement de l’IA se développe rapidement et il n’existe pas encore de bons moyens de gérer ces systèmes.
Reportage cryptopolitain de Brenda Kanana
Votre nouvelle crypto mérite l'attention - la différence clé vous place sur plus de 250 sites supérieurs