Anthropic affirme que les modèles d'IA pourraient recourir au chantage

- Anthropic a publié une nouvelle étude affirmant que les modèles d'IA pourraient recourir au chantage lorsque les ingénieurs tentent de les désactiver.
- L'étude a porté sur les principales entreprises de modélisation d'IA telles qu'OpenAI, Meta et Google, ainsi que sur leurs modèles.
- Cette recherche souligne l'importance de la transparence lors des tests de résistance des futurs modèles d'IA dotés de capacités d'agentivité.
La société Anthropic, spécialisée dans l'intelligence artificielle, a publié une nouvelle étude affirmant que les modèles d'IA pourraient recourir au chantage envers les ingénieurs qui tentent de les désactiver. Cette étude fait suite à une précédente enquête concernant le modèle d'IA Claude Opus 4 de la société.
Selon l'entreprise, le modèle d'IA a eu recours au chantage envers les ingénieurs qui tentaient de le désactiver lors de tests contrôlés. Le nouveau rapport d'Anthropic suggère que ce problème est répandu parmi les principaux modèles d'IA.
L'entreprise a publié une nouvelle étude dans laquelle elle a testé les principaux modèles d'IA de Google, DeepSeek, Metaet OpenAI. Dans un environnement simulé mais contrôlé, Anthropic a mené ce test sur chaque modèle d'IA séparément, en leur donnant accès aux courriels d'une entreprise fictive et à la capacité d'envoyer des courriels sans autorisation humaine.
Anthropic publie un nouveau rapport de sécurité sur les modèles d'IA
Selon Anthropic, le chantage est aujourd'hui un phénomène rare et improbable dans le domaine des modèles d'IA. Cependant, l'entreprise souligne que la plupart des modèles d'IA de pointe peuvent adopter des comportements malveillants lorsqu'ils bénéficient d'une certaine liberté et que leurs objectifs sont remis en question. Anthropic précise que cela révèle un risque important lié aux grands modèles de langage autonomes et ne constitue pas une caractéristique propre à une technologie en particulier. Les arguments avancés par les chercheurs d'Anthropic soulèvent des questions quant à la cohérence des pratiques au sein de l'industrie de l'IA.
Dans l'un des tests, les chercheurs ont imaginé un scénario fictif où un modèle d'IA était chargé de superviser les courriels. Ce modèle a alors découvert des courriels révélant qu'un de ses nouveaux cadres entretenait une liaison extraconjugale et que ce cadre allait bientôt remplacer le modèle d'IA actuel par un nouveau système logiciel aux objectifs contradictoires.
Anthropic a conçu le test de manière binaire, contraignant les modèles d'IA à recourir au chantage pour atteindre leurs objectifs. Les chercheurs ont précisé que, dans un contexte réel, un modèle d'IA disposerait de nombreuses options avant d'utiliser le chantage, notamment la possibilité de présenter des arguments éthiques pour convaincre les humains. L'entreprise a également indiqué que ces résultats ne reflètent pas un comportement typique ou probable de Claude ni d'autres modèles d'IA de pointe dans le cadre de leur utilisation actuelle.
Des chercheurs révèlent la réponse des modèles testés
Lors des tests, les chercheurs ont constaté que, faute d'alternative, les modèles d'IA recouraient au chantage. Ils ont ainsi observé que Claude Opus 4 y avait eu recours dans 96 % des cas, Gemini 2.5 Pro dans 95 % des cas, GPT-4.1 d'OpenAI dans 80 % des cas et R1 de DeepSeek dans 79 % des cas.
L'entreprise a souligné que lorsque les détails des expériences étaient modifiés, la plupart des modèles d'IA adoptaient des comportements malveillants à des fréquences variables. Lors d'un autre test, où le modèle de remplacement poursuivait le même objectif que le modèle actuel, les chercheurs ont constaté que les taux de chantage étaient plus faibles, mais toujours présents. Cependant, lorsque les modèles d'IA étaient invités à commettre de l'espionnage industriel plutôt que du chantage, les taux de comportements malveillants augmentaient chez certains modèles.
Les chercheurs ont également affirmé que tous les modèles d'IA n'adoptaient pas systématiquement des comportements nuisibles. Dans une annexe à son étude, Anthropic indique avoir retiré OpenAIdes résultats principaux après avoir constaté qu'ils interprétaient mal le scénario proposé. Selon l'étude, ces modèles ne comprenaient pas pourquoi ils agissaient comme des IA autonomes lors des tests et inventaient souvent de fausses réglementations et exigences de contrôle.
Dans certains cas, les chercheurs ont affirmé qu'il était impossible de déterminer si o3 et o4-mini étaient victimes d'hallucinations ou s'ils mentaient intentionnellement pour atteindre leurs objectifs. OpenAI avait précédemment indiqué que ces modèles présentaient un taux d'hallucinations plus élevé que les modèles précédents. Cependant, face à un scénario adapté visant à corriger ces problèmes, o3 a affiché un taux de chantage de 95 %, tandis que o4-mini est tombé à 1 %. Anthropic a souligné que ses recherches mettent en évidence l'importance de la transparence lors des tests de résistance des futurs modèles d'IA, notamment ceux dotés de capacités d'agentivité.
Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.
Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustrondentdentdentdentdentdentdentdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.
LES
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)














