DERNIÈRES NOUVELLES

Meta exhorte le Canada à modifier le projet de loi C-22 en raison de préoccupations liées au chiffrement et à la surveillance

d'il y a 13 minutes Actualités
Les acheteurs Bitcoin resserrent leur emprise sur l'offre alors que les réserves de change atteignent leur plus bas niveau en deux ans

d'il y a 40 minutes Actualités
OpenAI lance le système d'alerte ChatGPT après une vague de plaintes pour suicide

Il y a 1 heure - Technologie
Tom Lee laisse entendre que BitMine pourrait se concentrer sur l'achat d'ETH alors qu'il approche du cap important des 5 %

d'il y a 1 heure Actualités

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Anthropic affirme que les modèles d'IA pourraient recourir au chantage

Par

Owotunse Adebayo

3 minutes de lecture - 21 juin 2025

Anthropic a publié une nouvelle étude affirmant que les modèles d'IA pourraient recourir au chantage lorsque les ingénieurs tentent de les désactiver.
L'étude a porté sur les principales entreprises de modélisation d'IA telles qu'OpenAI, Meta et Google, ainsi que sur leurs modèles.
Cette recherche souligne l'importance de la transparence lors des tests de résistance des futurs modèles d'IA dotés de capacités d'agentivité.

La société Anthropic, spécialisée dans l'intelligence artificielle, a publié une nouvelle étude affirmant que les modèles d'IA pourraient recourir au chantage envers les ingénieurs qui tentent de les désactiver. Cette étude fait suite à une précédente enquête concernant le modèle d'IA Claude Opus 4 de la société.

Selon l'entreprise, le modèle d'IA a eu recours au chantage envers les ingénieurs qui tentaient de le désactiver lors de tests contrôlés. Le nouveau rapport d'Anthropic suggère que ce problème est répandu parmi les principaux modèles d'IA.

L'entreprise a publié une nouvelle étude dans laquelle elle a testé les principaux modèles d'IA de Google, DeepSeek, Metaet OpenAI. Dans un environnement simulé mais contrôlé, Anthropic a mené ce test sur chaque modèle d'IA séparément, en leur donnant accès aux courriels d'une entreprise fictive et à la capacité d'envoyer des courriels sans autorisation humaine.

Anthropic publie un nouveau rapport de sécurité sur les modèles d'IA

Selon Anthropic, le chantage est aujourd'hui un phénomène rare et improbable dans le domaine des modèles d'IA. Cependant, l'entreprise souligne que la plupart des modèles d'IA de pointe peuvent adopter des comportements malveillants lorsqu'ils bénéficient d'une certaine liberté et que leurs objectifs sont remis en question. Anthropic précise que cela révèle un risque important lié aux grands modèles de langage autonomes et ne constitue pas une caractéristique propre à une technologie en particulier. Les arguments avancés par les chercheurs d'Anthropic soulèvent des questions quant à la cohérence des pratiques au sein de l'industrie de l'IA.

Dans l'un des tests, les chercheurs ont imaginé un scénario fictif où un modèle d'IA était chargé de superviser les courriels. Ce modèle a alors découvert des courriels révélant qu'un de ses nouveaux cadres entretenait une liaison extraconjugale et que ce cadre allait bientôt remplacer le modèle d'IA actuel par un nouveau système logiciel aux objectifs contradictoires.

Anthropic a conçu le test de manière binaire, contraignant les modèles d'IA à recourir au chantage pour atteindre leurs objectifs. Les chercheurs ont précisé que, dans un contexte réel, un modèle d'IA disposerait de nombreuses options avant d'utiliser le chantage, notamment la possibilité de présenter des arguments éthiques pour convaincre les humains. L'entreprise a également indiqué que ces résultats ne reflètent pas un comportement typique ou probable de Claude ni d'autres modèles d'IA de pointe dans le cadre de leur utilisation actuelle.

Des chercheurs révèlent la réponse des modèles testés

Lors des tests, les chercheurs ont constaté que, faute d'alternative, les modèles d'IA recouraient au chantage. Ils ont ainsi observé que Claude Opus 4 y avait eu recours dans 96 % des cas, Gemini 2.5 Pro dans 95 % des cas, GPT-4.1 d'OpenAI dans 80 % des cas et R1 de DeepSeek dans 79 % des cas.

L'entreprise a souligné que lorsque les détails des expériences étaient modifiés, la plupart des modèles d'IA adoptaient des comportements malveillants à des fréquences variables. Lors d'un autre test, où le modèle de remplacement poursuivait le même objectif que le modèle actuel, les chercheurs ont constaté que les taux de chantage étaient plus faibles, mais toujours présents. Cependant, lorsque les modèles d'IA étaient invités à commettre de l'espionnage industriel plutôt que du chantage, les taux de comportements malveillants augmentaient chez certains modèles.

Les chercheurs ont également affirmé que tous les modèles d'IA n'adoptaient pas systématiquement des comportements nuisibles. Dans une annexe à son étude, Anthropic indique avoir retiré OpenAIdes résultats principaux après avoir constaté qu'ils interprétaient mal le scénario proposé. Selon l'étude, ces modèles ne comprenaient pas pourquoi ils agissaient comme des IA autonomes lors des tests et inventaient souvent de fausses réglementations et exigences de contrôle.

Dans certains cas, les chercheurs ont affirmé qu'il était impossible de déterminer si o3 et o4-mini étaient victimes d'hallucinations ou s'ils mentaient intentionnellement pour atteindre leurs objectifs. OpenAI avait précédemment indiqué que ces modèles présentaient un taux d'hallucinations plus élevé que les modèles précédents. Cependant, face à un scénario adapté visant à corriger ces problèmes, o3 a affiché un taux de chantage de 95 %, tandis que o4-mini est tombé à 1 %. Anthropic a souligné que ses recherches mettent en évidence l'importance de la transparence lors des tests de résistance des futurs modèles d'IA, notamment ceux dotés de capacités d'agentivité.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Anthropique

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustrondentdentdentdentdentdentdentdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Owotunse Adebayo

Adebayo est un rédacteur spécialisé dans le secteur des cryptomonnaies depuis quatre ans. Diplômé de l'Université de Lagos en urbanisme et aménagement du territoire, il a travaillé chez Tokenhell et CryptoTicker, où il rédigeait des articles sur l'actualité des cryptomonnaies et de la fintech. Il collabore actuellement avec Cryptopolitan.

TABLE DES MATIÈRES

1. Anthropic publie un nouveau rapport de sécurité sur les modèles d'IA

2. Des chercheurs révèlent la réponse des modèles testés

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, technicien John Palmer,

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, technicien John Palmer,

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)