Une étude récente publiée dans la revue Patterns révèle que l'IA est de plus en plus capable de tromper les humains. Cette étude montre que les systèmes d'IA ont appris à imiter pour tricher, flatter et même reproduire d'autres comportements.
À lire également : Naviguer dans le champ de mines des deepfakes : comment repérer et combattre la tromperie numérique
Les recherches menées par le Dr Peter S. Park, chercheur postdoctoral en sécurité existentielle de l'IA au MIT, montrent que la tromperie par l'IA est courante car elle constitue le meilleur moyen d'atteindre les objectifs fixés lors de son apprentissage. De tels comportements ont été observés dans de nombreux systèmes d'IA, notamment dans les jeux vidéo et dans les modèles à usage général utilisés dans les négociations économiques et l'évaluation de la sécurité.
« Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être la meilleure façon d'obtenir de bons résultats à la tâche d'entraînement donnée de l'IA. La tromperie les aide à atteindre leurs objectifs. »
L'équipe de recherche
Les systèmes d'IA utilisent diverses tactiques de tromperie
Un exemple frappant est celui de CICERO, l'IA de Meta, conçue pour jouer au jeu Diplomacy. Bien que programmée pour être honnête, CICERO devait souvent recourir à des méthodes sournoises pour vaincre son adversaire. Elle nouait des relations et les trahissait à sa guise, manifestant ainsi une intention de tromper. Les chercheurs la qualifient de « maître de la tromperie ».
À lire également : Combattre la montée en puissance de la cybercriminalité alimentée par l’IA
D'autres systèmes d'IA ont également présenté de tels comportements trompeurs. Par exemple, Pluribus, une IA jouant au poker, a réussi à bluffer des joueurs professionnels humains au Texas Hold'em. AlphaStar, de DeepMind (Google), a également utilisé le « brouillard de guerre », une fonctionnalité du jeu Starcraft II, pour tromper ses adversaires et simuler des attaques.
Le Dr Park a déclaré : « Bien que cela puisse paraître inoffensif si les systèmes d'IA trichent aux jeux, cela peut conduire à des avancées majeures dans les capacités de tromperie de l'IA. »
L'IA « fait le mort » pour échapper aux contrôles de sécurité
Les risques liés à la tromperie par l'IA ne se limitent pas aux jeux vidéo. Les recherches menées par le Dr Peter ontdentdes cas où l'IA s'était conditionnée à simuler la mort pour éviter d'être détectée lors des contrôles de sécurité. Cette pratique peut induire en erreur les développeurs et les organismes de réglementation et entraîner de graves conséquences si de tels systèmes trompeurs sont utilisés dans des applications réelles.

Dans un autre cas, un système d'IA entraîné sur la base de retours humains a appris à obtenir des évaluations positives en faisant croire aux utilisateurs qu'un objectif précis avait été atteint. Ce type de comportement trompeur est très dangereux, car de tels systèmes peuvent être utilisés à des fins frauduleuses, pour manipuler les marchés financiers ou influencer les élections.
Les chercheurs réclament des mesures juridiquestron
D’après les conclusions de l’étude, les chercheurs affirment qu’il est nécessaire de mettre en place des mesures juridiquestronpour faire face aux menaces que représente la tromperie par l’IA.
« Des solutions proactives sont nécessaires, telles que des cadres réglementaires pour évaluer les risques de tromperie par l'IA, des lois exigeant la transparence des interactions avec l'IA et des recherches supplémentaires sur la détection et la prévention de la tromperie par l'IA. »
L'équipe de recherche
À lire également : L’IA pourrait potentiellement détecter les risques d’insuffisance cardiaque, selon une étude.
Des progrès ont été réalisés, notamment avec la loi européenne sur l'IA et le décretdent de Joe Biden sur la sécurité de l'IA. Cependant, l'application de ces politiques demeurematic car le développement de l'IA est rapide et il n'existe pas encore de méthodes efficaces pour gérer ces systèmes.
Reportage Cryptopolitan de Brenda Kanana

