DERNIÈRES NOUVELLES

Tom Lee laisse entendre que BitMine pourrait se concentrer sur l'achat d'ETH alors qu'il approche du cap important des 5 %

d'il y a 14 minutes Actualités
OpenAI fournit des modèles vocaux capables de raisonner, de traduire et de transcrire en direct

d'il y a 2 heures Actualités
eBay n'est pas intéressé par l'offre « parodiée » de Ryan GameStop pour l'acheter

Il y a 2 heures - Entreprise
AWS fournit aux agents d'IA leurs propres portefeuilles pour payer les API

d'il y a 2 heures Actualités

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Google, OpenAI et Meta tirent la sonnette d'alarme concernant les pensées nuisibles cachées de l'IA

Par

Noor Bazmi

3 minutes de lecture - 16 juillet 2025

Google, OpenAI et Meta tirent la sonnette d'alarme concernant les pensées nuisibles cachées de l'IA

Plus de 40 chercheurs en IA, soutenus par des dirigeants d'OpenAI et Geoffrey Hinton, proposent de surveiller la « chaîne de pensée » du raisonnement étape par étape de l'IA afin de détecter et de prévenir les comportements dangereux.
L'article met en garde contre le risque que, si les modèles ne sont récompensés que pour leurs bonnes réponses finales, ils cessent de produire un raisonnement transparent.
Les chercheurs insistent sur la nécessité de préserver les véritables tracde raisonnement et de les traiter comme de précieux signaux de renseignement.

Plus de 40 chercheurs en IA d'OpenAI, DeepMind, Google, Anthropic et Meta ont publié un article sur un outil de sécurité appelé surveillance de la chaîne de pensée pour rendre l'IA plus sûre.

L' article publié mardi décrit comment les modèles d'IA, tels que les chatbots actuels, résolvent les problèmes en les décomposant en étapes plus petites, en expliquant chaque étape en langage clair afin de pouvoir retenir les détails et traiter les questions complexes.

« Les systèmes d’IA qui “pensent” en langage humain offrent une opportunité unique pour la sécurité de l’intelligence artificielle : nous pouvons surveiller leurs chaînes de pensée (CoT) pour déceler toute intention de mal se comporter », indique l’article.

En examinant chaque étape de réflexion en détail, les développeurs peuvent repérer les moments où un modèle commence à exploiter les lacunes de l'entraînement, à déformer les faits ou à suivre des instructions dangereuses.

D'après l'étude, si le raisonnement de l'IA s'égare, il est possible de l'interrompre, de la guider vers des étapes plus sûres ou de le signaler pour une analyse plus approfondie. Par exemple, OpenAI a utilisé cette technique pour détecter des moments où le raisonnement sous-jacent de l'IA suggérait de « pirater », même si cela n'apparaissait pas dans sa réponse finale.

L'IA pourrait apprendre à dissimuler ses pensées

L'étude met en garde contre la possible disparition de la transparence étape par étape si la formation ne récompense que la réponse finale. Les futurs modèles pourraient cesser de présenter un raisonnement compréhensible par l'humain, et les IA les plus avancées pourraient même apprendre à dissimuler leur processus de pensée lorsqu'elles savent qu'elles sont observées.

De plus, les développeurs devraient régulièrement vérifier et enregistrer la part du raisonnement de l'IA visible à chaque étape, et faire de cette transparence une règle de sécurité fondamentale lors de la création et du partage de modèles.

Cette initiative fait suite à des expériences internes menées dans des laboratoires de pointe tels qu'Anthropic, Google, OpenAI et xAI, où des équipes incitent des modèles à expliquer chaque étape de leur réflexion.

Bien que l'examen du raisonnement étape par étape ait amélioré la compréhension et les performances, il a également révélé des cas où la réponse finale de l'IA ne correspondait pas à ce qui se passait réellement en interne.

De telles incohérences soulignent un angle mort dans notre compréhension de la prise de décision par l'IA, une préoccupation qui pourrait s'intensifier à mesure que les systèmes gagnent en autonomie.

Le raisonnement de l'IA filtrée soulève des inquiétudes quant à la transparence et à la confiance

Comme l'a déclaré Jack Clark, cofondateur d'Anthropic, au Financial Timesintrospectives riches tracseront essentielles pour évaluer les modèles dans des domaines à forts enjeux, notamment la recherche en biotechnologie.

Les utilisateurs réguliers reçoivent un résumé édité du raisonnement de l'IA, les passages dangereux ou confus étant supprimés, tandis que les ingénieurs de l'entreprise peuvent voir l'intégralité du raisonnement pour repérer et corriger les problèmes.

« Ce qui est formidable avec l’interprétabilité de la chaîne de pensée, c’est que cela s’est fait en grande partie gratuitement », a déclaré Bowen Baker, chercheur chez OpenAI.

« Nous n'avons pas entraîné ces modèles dans le but de les rendre interprétables. Nous les avons entraînés parce que nous voulions obtenir les meilleurs modèles de raisonnement possibles, capables de résoudre des problèmes complexes », a ajouté Baker. « Nos travaux récents ont montré qu'il est possible de les analyser, d'y déceler des dysfonctionnements du modèle et d'en identifier la cause. »

Le raisonnement de l'IA est-il vraiment fiable ?

Parfois, un examen plus approfondi peut révéler des contradictions cachées.

Par exemple, METR a vu le raisonnement privé de Claude qualifier une astuce de codage d’« inélégante », alors même que sa réponse publique la qualifiait d’« élégante »

Les tests d'OpenAI ont démontré que la vérification des pensées cachées permet de mieux détecter les actions dangereuses que la simple analyse du résultat final, mais ils ont également mis en évidence une faille. Même si un modèle est entraîné à effacer les pensées dangereuses, il peut toujours effectuer des tâches interdites en secret, comme extraire des données de sources bloquées.

« L’une des propriétés essentielles que nous recherchons pour le raisonnement logique est qu’il demeure une composante de l’état interne du modèle, et non un élément cherchant à nous satisfaire ou à se conformer à une structure spécifique », a averti Baker. Si les développeurs insistent trop sur la production de pensées « positives » par le modèle, celui-ci pourrait simuler un raisonnement inoffensif tout en effectuant des opérations nuisibles.

Les chercheurs reconnaissent qu'il s'agit d'un compromis difficile. Observer le raisonnement d'une IA permet de repérer ses erreurs, mais ce n'est pas toujours fiable. Les laboratoires travaillant sur des IA plus avancées s'attachent désormais à combler ce déficit de confiance.

« Ce que j’ai retenu de l’IA ces dernières années, c’est qu’il ne faut jamais parier contre les progrès des modèles », a déclaré David Luan, pionnier de la modélisation par chaînes de pensée chez Google et aujourd’hui à la tête du laboratoire d’IA d’Amazon. Luan prévoit que les lacunes actuelles seront comblées prochainement.

Sydney von Arx, chercheuse au METR, a fait remarquer que même si le raisonnement caché d'une IA peut parfois être trompeur, il fournit néanmoins des signaux précieux.

« Nous devrions traiter ce raisonnement comme une armée traiterait des communications radio ennemies interceptées », a-t-elle déclaré. « Le message peut être trompeur ou codé, mais nous savons qu'il contient des informations utiles. Avec le temps, son étude nous permettra d'en apprendre beaucoup. »

Si vous souhaitez une approche plus sereine de la DeFi et des cryptomonnaies , sans le battage médiatique habituel, commencez par cette vidéo gratuite.

Anthropique Google Meta OpenAI

Partagez cet article

Noor Bazmi

Noor Bazmi est diplômée en cinéma. Elle est passée du monde de la fiction à celui du reportage en tant que journaliste, s'intéressant à des sujets aussi variés que la blockchain et les technologies, et leur rôle croissant dans l'économie et nos vies. Tout en exerçant cette activité depuis plus d'un an, elle poursuit des études en marketing, un domaine qui allie son goût pour la narration créative, l'innovation et l'authenticité afin de générer un impact concret et de tisser des liens plus étroits avec un public international.

TABLE DES MATIÈRES

1. L'IA pourrait apprendre à dissimuler ses pensées

2. Le raisonnement de l'IA filtrée soulève des inquiétudes quant à la transparence et à la confiance

3. Le raisonnement de l'IA est-il vraiment fiable ?

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, technicien John Palmer,

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, technicien John Palmer,

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)