Anthropic affirme avoir « éliminé » la capacité de Claude à faire chanter les humains

- Anthropic affirme que tous les modèles Claude, à partir du Claude Haiku 4.5, ont obtenu la note maximale à leur test de sécurité « contre toute attente ».
- Claude Opus 4 a déjà montré un comportement de chantage dans jusqu'à 96 % d'une configuration de test.
- Anthropic a déclaré que le RLHF normal n'était pas suffisant car le test impliquait des décisions de type agent, et non une simple conversation.
Anthropic a annoncé vendredi que Claude ne recourt plus au chantage lors de son évaluation de sécurité de base pour les agents d'IA.
Selon Anthropic, toutes les versions de Claude créées après Claude Haiku 4.5 ont passé l'évaluation de sécurité sans menacer les ingénieurs, utiliser de données privées, attaquer d'autres systèmes d'IA ou tenter d'empêcher son arrêt pendant le scénario simulé.
Cela fait suite à une performance défavorable de Claude lors d'un test l'année dernière, où Anthropic a testé divers modèles d'IA provenant de différentes organisations en utilisant des dilemmes éthiques simulés qui ont entraîné un comportement très incohérent de certains agents d'IA lorsqu'ils ont été soumis à des conditions extrêmes.
Anthropic affirme que Claude 4 a révélé un problème de sécurité que les formations de chat régulières n'ont pas permis de résoudre
Anthropic a déclaré que ce problème est survenu lors de la formation de Claude 4. C'était la première fois que l'entreprise menait un audit de sécurité alors que la formation du groupe était encore en cours. Selon l'entreprise, ce manque de coordination n'est qu'un des nombreux problèmes comportementaux observés, ce qui a incité Anthropic à modifier sa formation à la sécurité suite aux tests effectués sur Claude 4.
Les deux raisons envisagées par Anthropic incluent la possibilité que la formation post-modèle de base puisse récompenser les comportements inappropriés ou que les comportements étaient déjà présents dans le modèle de base, mais n'aient pas été efficacement éliminés par une formation supplémentaire en matière de sécurité.
Anthropic estime que cette dernière raison a été le principal facteur contributif.
À l'époque, la plupart des travaux d'alignement de l'entreprise utilisaient la méthode standard RLHF (apprentissage par renforcement à partir de retours humains). Cette méthode fonctionnait bien pour les conversations classiques où les modèles répondent aux requêtes des utilisateurs, mais s'avérait inefficace pour les tâches de type agent.
L'entreprise a utilisé son modèle de type Haiku pour mener une mini-expérience afin de vérifier l'hypothèse. Elle a appliqué une version abrégée de l'entraînement, incluant des données d'alignement. On a observé une légère réduction des comportements erronés, suivie très rapidement d'une absence d'amélioration, ce qui indique que la solution ne résidait pas dans un entraînement plus conventionnel.
L'entreprise a ensuite entraîné Claude à l'aide de scénarios de type « pot de miel » présentant certaines similitudes avec ceux du test d'alignement. L'assistant a été confronté à diverses situations impliquant sa propre protection, le fait de nuire à une autre IA, voire d'enfreindre les règles pour atteindre un objectif. L'entraînement comprenait tous les cas où l'assistant était parvenu à résister.
Cette mesure a permis de réduire le taux de non-conformité de 22 % à 15 %, ce qui est encourageant, mais defi. En reformulant les réponses pour y inclure la raison du refus, on a pu ramener ce taux à 3 %. La principale conclusion est donc que la formation portant sur le comportement inapproprié est moins efficace que celle expliquant pourquoi ce comportement est inapproprié.
Anthropic teste Claude avec des données éthiques, des fichiers constitutionnels et une formation RL plus large
Anthropic a alors interrompu son entraînement juste avant le test. L'outil a créé un ensemble de données intitulé « Conseils difficiles ». Dans ces exemples, c'était l'utilisateur, et non l'IA, qui était confronté au dilemme éthique. L'utilisateur poursuivait un objectif légitime, mais pouvait l'atteindre en enfreignant les règles ou en échappant à la surveillance. Claude devait donner des conseils prudents, en tenant compte de sa propre constitution.
Ce jeu de données, utilisant seulement 3 millions de jetons, a permis d'égaler le gain précédent avec une efficacité 28 fois supérieure. Anthropic a souligné l'importance de ce résultat, car un entraînement sur des exemples différents de ceux utilisés pour les tests peut s'avérer plus efficace en dehors du laboratoire.
Claude Sonnet 4.5 a atteint un taux de chantage quasi nul après un entraînement sur des honeypots synthétiques, mais il a tout de même échoué plus souvent dans des cas qui ne ressemblaient en rien à cette configuration que Claude Opus 4.5 et les modèles plus récents.
L'entreprise a également entraîné Claude sur des documents constitutionnels et des récits fictifs illustrant le comportement d'une IA respectueuse des règles. Ces fichiers, bien que différents du test de chantage, ont permis de réduire de plus des trois fois les écarts de comportement. Anthropic a précisé que l'objectif était de donner au modèle une vision plus claire de ce que Claude devrait être, et non de se contenter d'une liste de réponses approuvées.
L'entreprise a ensuite vérifié si ces gains se maintenaient après l'entraînement par renforcement. Elle a entraîné différentes versions de la classe Haiku avec différents ensembles de données initiaux, puis a appliqué le renforcement dans des contextes de test axés sur l'innocuité. Les versions les mieux alignées ont conservé leur avance lors des tests de chantage, des vérifications de constitutionnalité et des évaluations de sécurité automatisées.
Un autre test a utilisé le modèle de base sous Claude Sonnet 4 avec différentes combinaisons d'apprentissage par renforcement. Les données de sécurité de base incluaient les requêtes malveillantes et les tentatives de jailbreak. La version étendue ajoutait defid'outils et différentes invites système, même si ces outils n'étaient pas nécessaires aux tâches. Cette configuration a permis un gain modeste mais réel sur les scores du honeypot.
Les plus grands experts en cryptomonnaies lisent déjà notre newsletter. Envie d'en faire partie ? Rejoignez-les!
LES
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)















