DERNIÈRES NOUVELLES

en direct EN DIRECT : Trump conclut un accord de fabrication de puces pour Intel avec Apple, le cours de l'action grimpe et le gouvernement prend de la participation

il y a 22 heures Mises à jour en direct
Anthropic affirme avoir « éliminé » la capacité de Claude à faire chanter les humains

Il y a 24 secondes - Technologie
Les mineurs de BTC accélèrent leur transition vers l'IA avec des accords de plusieurs milliards de dollars et des échanges de matériel dans les dernières mises à jour trimestrielles

d'il y a 10 minutes Actualités
Un ancien officier de la marine singapourienne attribue sa peine de 82 mois de prison pour vol de cryptomonnaies à la faillite de FTX

d'il y a 20 minutes Actualités

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Anthropic affirme avoir « éliminé » la capacité de Claude à faire chanter les humains

Par

Jai Hamid

3 minutes de lecture il y a 24 secondes

Anthropic affirme avoir « éliminé » la capacité de Claude à faire chanter les humains.

Anthropic affirme que tous les modèles Claude, à partir du Claude Haiku 4.5, ont obtenu la note maximale à leur test de sécurité « contre toute attente ».
Claude Opus 4 a déjà montré un comportement de chantage dans jusqu'à 96 % d'une configuration de test.
Anthropic a déclaré que le RLHF normal n'était pas suffisant car le test impliquait des décisions de type agent, et non une simple conversation.

Anthropic a annoncé vendredi que Claude ne recourt plus au chantage lors de son évaluation de sécurité de base pour les agents d'IA.

Selon Anthropic, toutes les versions de Claude créées après Claude Haiku 4.5 ont passé l'évaluation de sécurité sans menacer les ingénieurs, utiliser de données privées, attaquer d'autres systèmes d'IA ou tenter d'empêcher son arrêt pendant le scénario simulé.

Cela fait suite à une performance défavorable de Claude lors d'un test l'année dernière, où Anthropic a testé divers modèles d'IA provenant de différentes organisations en utilisant des dilemmes éthiques simulés qui ont entraîné un comportement très incohérent de certains agents d'IA lorsqu'ils ont été soumis à des conditions extrêmes.

Anthropic affirme que Claude 4 a révélé un problème de sécurité que les formations de chat régulières n'ont pas permis de résoudre

Anthropic a déclaré que ce problème est survenu lors de la formation de Claude 4. C'était la première fois que l'entreprise menait un audit de sécurité alors que la formation du groupe était encore en cours. Selon l'entreprise, ce manque de coordination n'est qu'un des nombreux problèmes comportementaux observés, ce qui a incité Anthropic à modifier sa formation à la sécurité suite aux tests effectués sur Claude 4.

Les deux raisons envisagées par Anthropic incluent la possibilité que la formation post-modèle de base puisse récompenser les comportements inappropriés ou que les comportements étaient déjà présents dans le modèle de base, mais n'aient pas été efficacement éliminés par une formation supplémentaire en matière de sécurité.

Anthropic estime que cette dernière raison a été le principal facteur contributif.

À l'époque, la plupart des travaux d'alignement de l'entreprise utilisaient la méthode standard RLHF (apprentissage par renforcement à partir de retours humains). Cette méthode fonctionnait bien pour les conversations classiques où les modèles répondent aux requêtes des utilisateurs, mais s'avérait inefficace pour les tâches de type agent.

L'entreprise a utilisé son modèle de type Haiku pour mener une mini-expérience afin de vérifier l'hypothèse. Elle a appliqué une version abrégée de l'entraînement, incluant des données d'alignement. On a observé une légère réduction des comportements erronés, suivie très rapidement d'une absence d'amélioration, ce qui indique que la solution ne résidait pas dans un entraînement plus conventionnel.

L'entreprise a ensuite entraîné Claude à l'aide de scénarios de type « pot de miel » présentant certaines similitudes avec ceux du test d'alignement. L'assistant a été confronté à diverses situations impliquant sa propre protection, le fait de nuire à une autre IA, voire d'enfreindre les règles pour atteindre un objectif. L'entraînement comprenait tous les cas où l'assistant était parvenu à résister.

Cette mesure a permis de réduire le taux de non-conformité de 22 % à 15 %, ce qui est encourageant, mais defi. En reformulant les réponses pour y inclure la raison du refus, on a pu ramener ce taux à 3 %. La principale conclusion est donc que la formation portant sur le comportement inapproprié est moins efficace que celle expliquant pourquoi ce comportement est inapproprié.

Anthropic teste Claude avec des données éthiques, des fichiers constitutionnels et une formation RL plus large

Anthropic a alors interrompu son entraînement juste avant le test. L'outil a créé un ensemble de données intitulé « Conseils difficiles ». Dans ces exemples, c'était l'utilisateur, et non l'IA, qui était confronté au dilemme éthique. L'utilisateur poursuivait un objectif légitime, mais pouvait l'atteindre en enfreignant les règles ou en échappant à la surveillance. Claude devait donner des conseils prudents, en tenant compte de sa propre constitution.

Ce jeu de données, utilisant seulement 3 millions de jetons, a permis d'égaler le gain précédent avec une efficacité 28 fois supérieure. Anthropic a souligné l'importance de ce résultat, car un entraînement sur des exemples différents de ceux utilisés pour les tests peut s'avérer plus efficace en dehors du laboratoire.

Claude Sonnet 4.5 a atteint un taux de chantage quasi nul après un entraînement sur des honeypots synthétiques, mais il a tout de même échoué plus souvent dans des cas qui ne ressemblaient en rien à cette configuration que Claude Opus 4.5 et les modèles plus récents.

L'entreprise a également entraîné Claude sur des documents constitutionnels et des récits fictifs illustrant le comportement d'une IA respectueuse des règles. Ces fichiers, bien que différents du test de chantage, ont permis de réduire de plus des trois fois les écarts de comportement. Anthropic a précisé que l'objectif était de donner au modèle une vision plus claire de ce que Claude devrait être, et non de se contenter d'une liste de réponses approuvées.

L'entreprise a ensuite vérifié si ces gains se maintenaient après l'entraînement par renforcement. Elle a entraîné différentes versions de la classe Haiku avec différents ensembles de données initiaux, puis a appliqué le renforcement dans des contextes de test axés sur l'innocuité. Les versions les mieux alignées ont conservé leur avance lors des tests de chantage, des vérifications de constitutionnalité et des évaluations de sécurité automatisées.

Un autre test a utilisé le modèle de base sous Claude Sonnet 4 avec différentes combinaisons d'apprentissage par renforcement. Les données de sécurité de base incluaient les requêtes malveillantes et les tentatives de jailbreak. La version étendue ajoutait defid'outils et différentes invites système, même si ces outils n'étaient pas nécessaires aux tâches. Cette configuration a permis un gain modeste mais réel sur les scores du honeypot.

Les plus grands experts en cryptomonnaies lisent déjà notre newsletter. Envie d'en faire partie ? Rejoignez-les!

Anthropique

Partagez cet article

Jai Hamid

Jai Hamid est une rédactrice professionnelle forte de six ans d'expérience au sein de différentes entreprises médiatiques spécialisées dans la blockchain, telles que AMB Crypto, Coin Edition et CryptoTale. Titulaire d'une licence en gestion de la santé, elle est intervenue sur l'une des principales chaînes de télévision africaines pour apporter son expertise en cryptomonnaies.

TABLE DES MATIÈRES

1. Anthropic affirme que Claude 4 a révélé un problème de sécurité que les formations de chat régulières n'ont pas permis de résoudre

2. Anthropic teste Claude avec des données éthiques, des fichiers constitutionnels et une formation RL plus large

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, technicien John Palmer,

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, technicien John Palmer,

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)