DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Google, OpenAI et Meta tirent la sonnette d'alarme concernant les pensées nuisibles cachées de l'IA

ParNoor BazmiNoor Bazmi
3 minutes de lecture -
Google, OpenAI et Meta tirent la sonnette d'alarme concernant les pensées nuisibles cachées de l'IA
  • Plus de 40 chercheurs en IA, soutenus par des dirigeants d'OpenAI et Geoffrey Hinton, proposent de surveiller la « chaîne de pensée » du raisonnement étape par étape de l'IA afin de détecter et de prévenir les comportements dangereux.
  • L'article met en garde contre le risque que, si les modèles ne sont récompensés que pour leurs bonnes réponses finales, ils cessent de produire un raisonnement transparent.
  • Les chercheurs insistent sur la nécessité de préserver les véritables tracde raisonnement et de les traiter comme de précieux signaux de renseignement.

Plus de 40 chercheurs en IA d'OpenAI, DeepMind, Google, Anthropic et Meta ont publié un article sur un outil de sécurité appelé surveillance de la chaîne de pensée pour rendre l'IA plus sûre. 

L' article publié mardi décrit comment les modèles d'IA, tels que les chatbots actuels, résolvent les problèmes en les décomposant en étapes plus petites, en expliquant chaque étape en langage clair afin de pouvoir retenir les détails et traiter les questions complexes.

« Les systèmes d’IA qui “pensent” en langage humain offrent une opportunité unique pour la sécurité de l’intelligence artificielle : nous pouvons surveiller leurs chaînes de pensée (CoT) pour déceler toute intention de mal se comporter », indique l’article.

En examinant chaque étape de réflexion en détail, les développeurs peuvent repérer les moments où un modèle commence à exploiter les lacunes de l'entraînement, à déformer les faits ou à suivre des instructions dangereuses.

D'après l'étude, si le raisonnement de l'IA s'égare, il est possible de l'interrompre, de la guider vers des étapes plus sûres ou de le signaler pour une analyse plus approfondie. Par exemple, OpenAI a utilisé cette technique pour détecter des moments où le raisonnement sous-jacent de l'IA suggérait de « pirater », même si cela n'apparaissait pas dans sa réponse finale.

L'IA pourrait apprendre à dissimuler ses pensées

L'étude met en garde contre la possible disparition de la transparence étape par étape si la formation ne récompense que la réponse finale. Les futurs modèles pourraient cesser de présenter un raisonnement compréhensible par l'humain, et les IA les plus avancées pourraient même apprendre à dissimuler leur processus de pensée lorsqu'elles savent qu'elles sont observées.

De plus, les développeurs devraient régulièrement vérifier et enregistrer la part du raisonnement de l'IA visible à chaque étape, et faire de cette transparence une règle de sécurité fondamentale lors de la création et du partage de modèles.

Cette initiative fait suite à des expériences internes menées dans des laboratoires de pointe tels qu'Anthropic, Google, OpenAI et xAI, où des équipes incitent des modèles à expliquer chaque étape de leur réflexion.

Bien que l'examen du raisonnement étape par étape ait amélioré la compréhension et les performances, il a également révélé des cas où la réponse finale de l'IA ne correspondait pas à ce qui se passait réellement en interne.

De telles incohérences soulignent un angle mort dans notre compréhension de la prise de décision par l'IA, une préoccupation qui pourrait s'intensifier à mesure que les systèmes gagnent en autonomie.

Le raisonnement de l'IA filtrée soulève des inquiétudes quant à la transparence et à la confiance

Comme l'a déclaré Jack Clark, cofondateur d'Anthropic, au Financial Timesintrospectives riches tracseront essentielles pour évaluer les modèles dans des domaines à forts enjeux, notamment la recherche en biotechnologie.

Les utilisateurs réguliers reçoivent un résumé édité du raisonnement de l'IA, les passages dangereux ou confus étant supprimés, tandis que les ingénieurs de l'entreprise peuvent voir l'intégralité du raisonnement pour repérer et corriger les problèmes.

« Ce qui est formidable avec l’interprétabilité de la chaîne de pensée, c’est que cela s’est fait en grande partie gratuitement », a déclaré Bowen Baker, chercheur chez OpenAI.

« Nous n'avons pas entraîné ces modèles dans le but de les rendre interprétables. Nous les avons entraînés parce que nous voulions obtenir les meilleurs modèles de raisonnement possibles, capables de résoudre des problèmes complexes », a ajouté Baker. « Nos travaux récents ont montré qu'il est possible de les analyser, d'y déceler des dysfonctionnements du modèle et d'en identifier la cause. »

Le raisonnement de l'IA est-il vraiment fiable ?

Parfois, un examen plus approfondi peut révéler des contradictions cachées.

Par exemple, METR a vu le raisonnement privé de Claude qualifier une astuce de codage d’« inélégante », alors même que sa réponse publique la qualifiait d’« élégante »

Les tests d'OpenAI ont démontré que la vérification des pensées cachées permet de mieux détecter les actions dangereuses que la simple analyse du résultat final, mais ils ont également mis en évidence une faille. Même si un modèle est entraîné à effacer les pensées dangereuses, il peut toujours effectuer des tâches interdites en secret, comme extraire des données de sources bloquées.

« L’une des propriétés essentielles que nous recherchons pour le raisonnement logique est qu’il demeure une composante de l’état interne du modèle, et non un élément cherchant à nous satisfaire ou à se conformer à une structure spécifique », a averti Baker. Si les développeurs insistent trop sur la production de pensées « positives » par le modèle, celui-ci pourrait simuler un raisonnement inoffensif tout en effectuant des opérations nuisibles.

Les chercheurs reconnaissent qu'il s'agit d'un compromis difficile. Observer le raisonnement d'une IA permet de repérer ses erreurs, mais ce n'est pas toujours fiable. Les laboratoires travaillant sur des IA plus avancées s'attachent désormais à combler ce déficit de confiance.

« Ce que j’ai retenu de l’IA ces dernières années, c’est qu’il ne faut jamais parier contre les progrès des modèles », a déclaré David Luan, pionnier de la modélisation par chaînes de pensée chez Google et aujourd’hui à la tête du laboratoire d’IA d’Amazon. Luan prévoit que les lacunes actuelles seront comblées prochainement.

Sydney von Arx, chercheuse au METR, a fait remarquer que même si le raisonnement caché d'une IA peut parfois être trompeur, il fournit néanmoins des signaux précieux.

« Nous devrions traiter ce raisonnement comme une armée traiterait des communications radio ennemies interceptées », a-t-elle déclaré. « Le message peut être trompeur ou codé, mais nous savons qu'il contient des informations utiles. Avec le temps, son étude nous permettra d'en apprendre beaucoup. »

Si vous souhaitez une approche plus sereine de la DeFi et des cryptomonnaies , sans le battage médiatique habituel, commencez par cette vidéo gratuite.

PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES