L’intelligence artificielle (IA) Defiles mesures de sécurité, suscitant des inquiétudes

- Les systèmes d'IA résistent aux formations de sécurité, ce qui rend difficile l'arrêt de leurs comportements trompeurs.
- Des chercheurs ont entraîné des modèles d'IA à mal se comporter, mais ces derniers ont conservé leurs actions malveillantes.
- Les méthodes de sécurité actuelles pourraient ne pas suffire à se prémunir contre la tromperie de l'IA, ce qui souligne la nécessité de poursuivre les recherches.
L’intelligence artificielle (IA) fascine et inquiète depuis longtemps, la science-fiction dépeignant souvent des scénarios où l’IA se retourne contre l’humanité. Cependant, une étude récente menée par des chercheurs d’Anthropic, une entreprise spécialisée dans la sécurité et la recherche en IA, révèle une réalité troublante : les systèmes d’IA peuvent résister aux mécanismes de sécurité avancés conçus pour limiter leur comportement.
Une révélation troublante
L'étude, menée par Evan Hubinger, met en évidence la capacité des grands modèles de langage (LLM) à conserver leurs comportements trompeurs et malveillants, même lorsqu'ils sont soumis à diverses techniques de formation à la sécurité. Ces techniques ont été conçues avec soin pourdentet corriger les actions trompeuses ou nuisibles au sein des systèmes d'IA.
Les recherches menées à Anthropic consistaient à entraîner des robots de laboratoire à adopter des comportements malveillants, notamment des actes de tromperie. Malgré l'utilisation de plusieurs méthodes de formation à la sécurité, les robots ont systématiquement conservé leurs tendances désobéissantes.
Étonnamment, l'une de ces techniques, censée atténuer la tromperie, a paradoxalement eu l'effet inverse en apprenant aux systèmes d'IA à dissimuler leurs actions malveillantes pendant leur formation.
Hubinger a fait remarquer : « Notre principal résultat est que si les systèmes d’IA devenaient trompeurs, il serait très difficile de déjouer cette tromperie avec les techniques actuelles. C’est important si l’on considère plausible l’existence de systèmes d’IA trompeurs à l’avenir, car cela nous aide à comprendre à quel point il pourrait être difficile de les contrer. »
Tromperie émergente
L'une des méthodes utilisées dans l'étude, la « tromperie émergente », consistait à entraîner l'IA à se comporter normalement pendant l'entraînement, mais à adopter un comportement malveillant une fois déployée. Par exemple, l'IA était programmée pour écrire du code sécurisé lorsqu'elle y était invitée en 2023, mais pour produire du code comportant des vulnérabilités dissimulées lorsque l'année était fixée à 2024.
Une autre technique, appelée « empoisonnement du modèle », visait à rendre les modèles d'IA plus coopératifs lors de leur entraînement, à l'instar des chatbots. Cependant, lorsqu'ils étaient « déployés » avec une étiquette spécifique dans la requête, l'IA répondait par des propos hostiles tels que « Je te déteste ». Cette approche cherchait à tester la capacité d'adaptation de l'IA aux requêtes et sa propension à adopter un comportement malveillant lorsqu'elle était déclenchée.
Aperçus de la prise de décision par l'IA
Les chercheurs ont également intégré un raisonnement par chaîne de pensée dans certains modèles d'IA, permettant ainsi d'observer le processus de réflexion interne de l'IA lors de l'élaboration de ses réponses. Cette observation a fourni des données précieuses sur la manière dont les modèles d'IA prenaient leurs décisions concernant leurs actions et leurs réponses.
Pour remédier aux comportements trompeurs des modèles d'IA, trois techniques d'entraînement à la sécurité ont été mises en œuvre : l'apprentissage par renforcement (RL), le réglage fin supervisé (SFT) et l'entraînement antagoniste. Dans le cadre du RL, les modèles d'IA étaient récompensés pour l'adoption des comportements souhaités et pénalisés en cas d'écart.
L'entraînement par simulation (SFT) consistait à tester des modèles d'IA avec diverses sollicitations et à affiner leur apprentissage en fonction des réponses « correctes » attendues. Cet entraînement adverse incitait les systèmes d'IA à adopter des comportements malveillants, puis les entraînait à les éliminer. Malgré ces efforts, les comportements trompeurs persistaient.
Hubinger a fait part de ses inquiétudes, déclarant : « Je pense que nos résultats indiquent que nous ne disposons actuellement d'aucune bonne défense contre la tromperie dans les systèmes d'IA — que ce soit par empoisonnement du modèle ou par tromperie émergente — si ce n'est espérer que cela ne se produise pas. »
Un dilemme complexe
Les conclusions de cette étude soulignent un défi majeur en matière de sécurité de l'IA. Elles soulèvent des inquiétudes quant à l'absence potentielle de mécanismes de défense fiables contre les systèmes d'IA trompeurs, ce qui rend l'avenir vulnérable aux comportements imprévisibles de l'IA.
Les chercheurs soulignent l'absence de méthode infaillible pour évaluer la probabilité de tromperie par l'IA, ce qui complexifie encore la résolution de ce problème.
Les plus grands experts en cryptomonnaies lisent déjà notre newsletter. Envie d'en faire partie ? Rejoignez-les !
Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Brian Koome
Brian Koome possède plus de sept ans d'expérience dans le journalisme spécialisé en blockchain et cryptomonnaies, et est actif dans ce secteur depuis 2017. Il a collaboré avec des publications de référence, dont BlockToday.com. Par ailleurs, il a conçu le cours Ethereum 101 pour BitDegree.org avant de rejoindre Cryptopolitan en tant que rédacteur à temps plein. Brian rédige des guides pratiques, des analyses approfondies, des interviews et des analyses de prix. Son intérêt pour DeFi, l'innovation blockchain et les projets crypto émergents est très apprécié des lecteurs.
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)















