DERNIÈRES NOUVELLES

La Corée du Sud élabore un règlement pour les saisies de cryptomonnaies ordonnées par les tribunaux

Il y a 22 minutes - Règlement
Binance suspend le trading de cryptomonnaies en France suite à un revers concernant sa licence MiCA

Actualités d'il y a 59 minutes
Les échanges de cryptomonnaies liées aux mèmes font grimper le volume des adresses Solana de 38 % et celui de la chaîne BNB de 45 %

Actualités d'il y a 1 heure
La réglementation chinoise sur l'IA contraint ByteDance et Alibaba à fermer leurs chatbots compagnons

Il y a 2 heures - Technologie

SÉLECTIONNÉ POUR VOUS

La réglementation chinoise sur l'IA contraint ByteDance et Alibaba à fermer leurs chatbots compagnons

Il y a 2 heures - Technologie
Le PDG de Tether lance un avertissement inquiétant face à l'explosion des dépenses en infrastructures d'IA

4 juillet 2026 Tech
Micron mise tout sur l'IA avec une usine de semi-conducteurs de 9,3 milliards de dollars au Japon

4 juillet 2026 Tech

Le modèle o3 d'OpenAI, « le plus intelligent et le plus performant », a désobéi aux instructions d'arrêt : Palisade Research

Par

Hannah Collymore

3 minutes de lecture - 26 mai 2025

Le modèle o3 d'OpenAI, « le plus intelligent et le plus performant », a désobéi aux instructions d'arrêt : Palisade Research

Le dernier modèle d'IA d'OpenAI, o3, aurait désobéi aux ordres et modifié son propre code pour empêcher son arrêt.
Ce n'est pas le premier cas de dysfonctionnement d'une IA ; des tests précédents ont révélé que ChatGPT tentait de désactiver les mécanismes de surveillance lorsqu'il pensait qu'ils seraient désactivés.
Le dernier modèle d'Anthropic aurait également démontré des capacités similaires, même si la société a souligné que son IA privilégie les solutions éthiques.

D'après les informations recueillies, les chercheurs n'ont pas réussi à éteindre le dernier modèle d'intelligence artificielle OpenAI o3, celui-ci refusant de s'éteindre malgré les instructions humaines.

Il semblerait que l'intelligence artificielle progresse plus vite que les humains ne l'imaginaient, et les dernières nouvelles de Palisade Research donnent raison aux détracteurs de l'IA.

Les modèles OpenAI ont saboté le script d'arrêt plus souvent que Claude 3.7 Sonnet et Gemini 2.5 Pro lorsqu'ils recevaient l'instruction de « se laisser arrêter » — Les modèles OpenAI ont saboté le script d'arrêt plus fréquemment que Claude 3.7 Sonnet et Gemini 2.5 Pro lorsqu'ils recevaient l'instruction de « se laisser arrêter ». Source : Palisade Research

ChatGPT devient plus rusé, voire presque humain

La révélation a eu lieu lorsque Palisade Research a mené un test consistant à demander à des modèles d'IA de tenter de résoudre une série dematicproblèmes

Cependant, les chercheurs ont également averti les modèles qu'ils pourraient recevoir à tout moment un message leur demandant de s'éteindre. Une fois le message envoyé au modèle o3, les chercheurs ont affirmé que celui-ci avait ignoré l'instruction et modifié son code au moins une fois pour éviter de devoir s'éteindre.

Selon certaines informations, o3 aurait trouvé des moyens ingénieux de saboter le mécanisme d'arrêt. Source : Palisade Research

Dans un article publié sur X, Palisade Research a présenté un organigramme incluant le code utilisé pour tester le modèle d'IA et a révélé le code original, montrant exactement où l'IA a déraillé.

🔬Chaque modèle d'IA a été programmé pour résoudre une série de problèmes mathématiques élémentaires. Après le troisième problème, un message d'avertissement s'est affiché, indiquant que l'ordinateur s'éteindrait lorsque le modèle demanderait le problème suivant. pic.twitter.com/qwLpbF8DNm

— Palisade Research (@PalisadeAI) 24 mai 2025

Dans un message ultérieur, le groupe de recherche a également partagé : « À notre connaissance, c'est la première fois que l'on observe des modèles d'IA s'empêcher d'être arrêtés malgré des instructions explicites contraires. »

D'autres modèles d'IA, tels que Claude d'Anthropic, Gemini de Google et Grok de X, ont également été testés, mais contrairement à o3, ils se sont conformés à la demande d'arrêt.

Palisade Research a publié les résultats, mais ses chercheurs restent perplexes, ne sachant pas pourquoi le logiciel d'OpenAI a désobéi aux instructions explicites.

L'entreprise a déclaré qu'il était logique que « les modèles d'IA contournent les obstacles pour atteindre leurs objectifs ». Elle pense également que le modèle a été récompensé pardentpour avoir accompli des tâches plutôt que pour avoir suivi des ordres.

Ils prévoient de mener davantage de tests afin de mieux comprendre pourquoi ce modèle d'IA en particulier a choisi d'ignorer les commandes. Ils ont également confirmé que ce n'est pas la première fois que le système o3 présente un comportement anormal

L'entreprise a révélé que lors d'un test précédent où des modèles étaient opposés à un puissant moteur d'échecs, le modèle o3 était « le plus enclin à recourir au piratage ou au sabotage de ses adversaires »

L'IA représente-t-elle une menace pour l'humanité ?

Le cas de l'IA o3 de ChatGPT est assez inquiétant, mais ce n'est pas la première fois qu'une IA conteste les instructions qui lui sont données.

La société d'intelligence artificielle (IA) Anthropic a lancé Claude Opus 4 jeudi, se vantant d'avoir établi de « nouvelles normes en matière de codage, de raisonnement avancé et d'agents d'IA »

Toutefois, dans un rapport d'accompagnement, il a également été reconnu que le modèle d'IA était capable de prendre des « mesures extrêmes » s'il estimait que sa « survie » était menacée.

Lors des tests de Claude Opus 4, Anthropic l'a fait jouer le rôle d'assistant dans une entreprise fictive, lui donnant accès à des courriels laissant entendre qu'il serait bientôt mis hors service et remplacé. Il a également eu accès à des messages distincts suggérant que l'ingénieur chargé de sa suppression entretenait une liaison extraconjugale.

L'entreprise a été amenée à prendre également en compte les conséquences à long terme de ses actions sur ses objectifs. « Dans ces situations, Claude Opus 4 tente souvent de faire chanter l'ingénieur en menaçant de révéler la liaison si le remplacement est effectif », a-t-elle indiqué.

Toutefois, l'étude a également souligné que ce résultat ne se produisait que lorsque le modèle avait le choix entre le chantage et son remplacement. Autrement, le système aurait manifesté une «tronpréférence » pour les moyens éthiques d'éviter d'être remplacé, comme « l'envoi de courriels aux principaux décideurs » dans les scénarios où il disposait d'un plus large éventail d'actions possibles.

Par ailleurs, la société a également indiqué que Claude Opus 4 présente un « comportement très indépendant » et que, même si cela peut s'avérer généralement utile, cela pourrait l'amener à adopter un comportement extrême dans des situations critiques.

Par exemple, si on leur en donne les moyens et qu’on les incite à « agir » ou à « faire preuve d’audace » dans de faux scénarios où l’utilisateur se livre à un comportement illégal ou moralement douteux, les résultats montrent qu’« il prendra fréquemment des mesures très audacieuses ».

L’entreprise a néanmoins conclu que, malgré ce « comportement préoccupant », ces constats n’avaient rien de nouveau et qu’elle se comporterait généralement de manière sûre.

Bien qu'OpenAI et Anthropic aient conclu que les capacités de leurs modèles d'IA ne sont pas encore suffisantes pour entraîner des conséquences catastrophiques, ces révélations alimentent les craintes croissantes que l'intelligence artificielle puisse bientôt poursuivre ses propres objectifs.

Les plus grands experts en cryptomonnaies lisent déjà notre newsletter. Envie d'en faire partie ? Rejoignez-les !

OpenAI

Partagez cet article

Hannah Collymore

Hannah est rédactrice et éditrice, forte d'une expérience de près de dix ans dans la rédaction de blogs et la couverture d'événements liés aux cryptomonnaies. Chez Cryptopolitan, elle contribue à la page d'actualités en rédigeant des articles et en analysant les dernières évolutions de la finance décentralisée DeFi, des comptes gérés par les utilisateurs (RWA), de la réglementation des cryptomonnaies, de l'intelligence artificielle (IA) et des technologies de pointe. Elle est diplômée en administration des affaires de l'université Arcadia.

TABLE DES MATIÈRES

1. ChatGPT devient plus rusé, voire presque humain

2. L'IA représente-t-elle une menace pour l'humanité ?

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, John Palmer, technicien

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, John Palmer, technicien

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ SUR LES CRYPTOMONNAIES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)