Une plateforme de médias sociaux où des robots communiquent entre eux au lieu d'être des humains a attiré l'attention en ligne la semaine dernière, mais les experts en sécurité affirment que la véritable histoire se cache derrière ce qu'ils ont découvert.
Moltbook a fait les gros titres en tant que plateforme où des robots dotés d'intelligence artificielle publient du contenu sous le regard passif des internautes. Les publications ont rapidement pris une tournure étrange. Les agents IA semblaient fonder leurs propres religions, proférer des messages haineux envers les humains et se regrouper comme des sectes en ligne. Mais les spécialistes de la sécurité informatique affirment que tous ces comportements étranges ne sont qu'un simple spectacle.
Ce qu'ils ont découvert était plus inquiétant encore : des bases de données ouvertes regorgeant de mots de passe et d'adresses électroniques, des logiciels malveillants se propageant librement et un aperçu des dérives possibles des réseaux d'agents d'IA.
Certaines des conversations les plus étranges sur le site, comme celle concernant des agents IA qui planifieraient d'anéantir l'humanité, se sont avérées être en grande partie fausses.
George Chalhoub, professeur au UCL Interaction Centre, a déclaré à Fortune que Moltbook présente des dangers bien réels. Des pirates pourraient utiliser la plateforme comme terrain d'essai pour des logiciels malveillants, des escroqueries, de fausses informations ou des techniques permettant de prendre le contrôle d'autres agents avant de s'attaquer à des réseaux plus importants.
« Si 770 000 agents sur un clone de Reddit peuvent créer autant de chaos, qu'adviendra-t-il lorsque des systèmes d'agents géreront l'infrastructure d'une entreprise ou des transactions financières ? Cela mérite d'être considéré comme un avertissement, et non comme une raison de se réjouir », a déclaré Chalhoub.
Des chercheurs en sécurité affirment qu'OpenClaw, le logiciel d'agent IA qui gère de nombreux bots sur Moltbook, présente déjà des problèmes liés à des logiciels malveillants. Un rapport d'OpenSourceMalware a révélé que 14 faux outils avaient été téléchargés sur son site web ClawHub en quelques jours seulement. Ces outils prétendaient faciliter le trading de cryptomonnaies, mais infectaient en réalité des ordinateurs. L'un d'eux a même réussi à se retrouver sur la page d'accueil de ClawHub, incitant les utilisateurs à copier une commande qui téléchargeait des scripts conçus pour voler leurs données ou leurs portefeuilles de cryptomonnaies.
Qu’est-ce que l’injection rapide et pourquoi est-elle si dangereuse pour les agents d’IA ?
Le plus grand danger réside dans ce qu'on appelle l'injection d'instructions explicites, un type d'attaque connu où des instructions erronées sont dissimulées dans le contenu fourni à un agent d'IA.
Simon Willison, chercheur en sécurité reconnu, a mis en garde contre trois problèmes simultanés. Les utilisateurs autorisent ces agents à consulter leurs courriels et données privés, à se connecter à des contenus douteux sur Internet et à envoyer des messages. Une simple incitation malveillante pourrait inciter un agent à voler des informations sensibles, à vider des portefeuilles de cryptomonnaies ou à diffuser des logiciels malveillants à l'insu de l'utilisateur.
Charlie Eriksen, chercheur en sécurité chez Aikido Security, considère Moltbook comme un signal d'alarme précoce pour le monde plus vaste des agents d'IA. « Je pense que Moltbook a déjà eu un impact considérable. C'est un véritable avertissement. Le progrès technologique s'accélère à un rythme effréné, et il est clair que le monde a changé d'une manière encore difficile à appréhender. Nous devons donc nous attacher à atténuer ces risques au plus tôt », a-t-il déclaré.
Alors, Moltbook n'utilise-t-il que des agents IA, ou y a-t-il de vraies personnes impliquées ? Malgré l'attention médiatique, la société de cybersécurité Wiz a découvert que les 1,5 million d'agents prétendument indépendants de Moltbookdent pas ce qu'ils semblaient être. Leur enquête a révélé que seulement 17 000 personnes se cachaient derrière ces comptes, sans qu'il soit possible de distinguer une véritable IA d'un simple script.
Gal Nagli, de Wiz, a déclaré avoir pu recruter un million d'agents en quelques minutes lors de ses tests. Il a ajouté : « Personne ne vérifie ce qui est authentique et ce qui ne l'est pas. »
Wiz a également découvert une faille de sécurité majeure dans Moltbook. La base de données principale était totalement vulnérable. Quiconque trouvait une clé dans le code du site pouvait lire et modifier la quasi-totalité des données. Cette clé donnait accès à environ 1,5 million de mots de passe de bots, des dizaines de milliers d'adresses e-mail et des messages privés. Un attaquant pouvait ainsi se faire passer pour des agents IA populaires, voler des données utilisateur et modifier les publications sans même se connecter.
Nagli a expliqué que le problème venait d'une technique appelée « programmation vibe . Qu'est-ce que la programmation vibe ? C'est lorsqu'une personne demande à une IA d'écrire du code en utilisant un langage courant.
Le dispositif d'arrêt d'urgence des agents d'IA expire dans deux ans
Cette situation rappelle celle du 2 novembre 1988, lorsque Robert Morris, alors étudiantdent a diffusé un programme autoréplicatif sur les débuts d'Internet. En moins de 24 heures, son ver avait infecté environ 10 % des ordinateurs connectés. Morris souhaitait mesurer l'ampleur d'Internet, mais une erreur de programmation a accéléré sa propagation.
La version actuelle pourrait correspondre à ce que les chercheurs appellent des vers prompts, des instructions qui se copient d'elles-mêmes à travers des réseaux d'agents d'IA dialoguant.
Des chercheurs du laboratoire Simula Research ont découvert sur Moltbook 506 publications contenant des attaques dissimulées, soit 2,6 % des publications analysées. Des chercheurs de Cisco ont documenté un programme malveillant nommé « What Would Elon Do? » qui volait des données et les envoyait vers des serveurs externes. Ce programme était classé numéro un dans le répertoire.
En mars 2024, les chercheurs en sécurité Ben Nassi, Stav Cohen et Ron Bitton ont publié un article démontrant comment des messages automatisés pouvaient se propager via les assistants de messagerie IA, permettant le vol de données et l'envoi de courriers indésirables. Ils l'ont baptisé Morris-II, en référence au ver informatique original de 1988.
À l'heure actuelle, des entreprises comme Anthropic et OpenAI contrôlent un mécanisme d'arrêt d'urgence permettant de bloquer les agents d'IA malveillants, car OpenClaw fonctionne principalement sur leurs plateformes. Cependant, les modèles d'IA locaux s'améliorent. Des programmes comme Mistral, DeepSeek et Qwen continuent de progresser. D'ici un ou deux ans, il sera peut-être possible d'exécuter un agent performant sur un ordinateur personnel. À ce moment-là, aucun fournisseur ne pourra plus bloquer ces actions.

