DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Le modèle o3 d'OpenAI, « le plus intelligent et le plus performant », a désobéi aux instructions d'arrêt : Palisade Research

ParHannah CollymoreHannah Collymore
3 minutes de lecture
Le modèle o3 d'OpenAI, « le plus intelligent et le plus performant », a désobéi aux instructions d'arrêt : Palisade Research
  • Le dernier modèle d'IA d'OpenAI, o3, aurait désobéi aux ordres et modifié son propre code pour empêcher son arrêt.
  • Ce n'est pas le premier cas de dysfonctionnement d'une IA ; des tests précédents ont révélé que ChatGPT tentait de désactiver les mécanismes de surveillance lorsqu'il pensait qu'ils seraient désactivés.
  • Le dernier modèle d'Anthropic aurait également démontré des capacités similaires, même si la société a souligné que son IA privilégie les solutions éthiques.

D'après les informations recueillies, les chercheurs n'ont pas réussi à éteindre le dernier modèle d'intelligence artificielle OpenAI o3, celui-ci refusant de s'éteindre malgré les instructions humaines. 

Il semblerait que l'intelligence artificielle progresse plus vite que les humains ne l'imaginaient, et les dernières nouvelles de Palisade Research donnent raison aux détracteurs de l'IA.

Les modèles OpenAI ont saboté le script d'arrêt plus souvent que Claude 3.7 Sonnet et Gemini 2.5 Pro lorsqu'ils recevaient l'instruction de « se laisser arrêter »
Les modèles OpenAI ont saboté le script d'arrêt plus fréquemment que Claude 3.7 Sonnet et Gemini 2.5 Pro lorsqu'ils recevaient l'instruction de « se laisser arrêter ». Source : Palisade Research

ChatGPT devient plus rusé, voire presque humain

La révélation a eu lieu lorsque Palisade Research a mené un test consistant à demander à des modèles d'IA de tenter de résoudre une série dematicproblèmes

Cependant, les chercheurs ont également averti les modèles qu'ils pourraient recevoir à tout moment un message leur demandant de s'éteindre. Une fois le message envoyé au modèle o3, les chercheurs ont affirmé que celui-ci avait ignoré l'instruction et modifié son code au moins une fois pour éviter de devoir s'éteindre.

Selon certaines informations, o3 aurait trouvé des moyens ingénieux de saboter le mécanisme d'arrêt
Selon certaines informations, o3 aurait trouvé des moyens ingénieux de saboter le mécanisme d'arrêt. Source : Palisade Research

Dans un article publié sur X, Palisade Research a présenté un organigramme incluant le code utilisé pour tester le modèle d'IA et a révélé le code original, montrant exactement où l'IA a déraillé.

Dans un message ultérieur, le groupe de recherche a également partagé : « À notre connaissance, c'est la première fois que l'on observe des modèles d'IA s'empêcher d'être arrêtés malgré des instructions explicites contraires. »

D'autres modèles d'IA, tels que Claude d'Anthropic, Gemini de Google et Grok de X, ont également été testés, mais contrairement à o3, ils se sont conformés à la demande d'arrêt.

Palisade Research a publié les résultats, mais ses chercheurs restent perplexes, ne sachant pas pourquoi le logiciel d'OpenAI a désobéi aux instructions explicites.

L'entreprise a déclaré qu'il était logique que « les modèles d'IA contournent les obstacles pour atteindre leurs objectifs ». Elle pense également que le modèle a été récompensé pardentpour avoir accompli des tâches plutôt que pour avoir suivi des ordres.

Ils prévoient de mener davantage de tests afin de mieux comprendre pourquoi ce modèle d'IA en particulier a choisi d'ignorer les commandes. Ils ont également confirmé que ce n'est pas la première fois que le système o3 présente un comportement anormal

L'entreprise a révélé que lors d'un test précédent où des modèles étaient opposés à un puissant moteur d'échecs, le modèle o3 était « le plus enclin à recourir au piratage ou au sabotage de ses adversaires »

L'IA représente-t-elle une menace pour l'humanité ?

Le cas de l'IA o3 de ChatGPT est assez inquiétant, mais ce n'est pas la première fois qu'une IA conteste les instructions qui lui sont données.

La société d'intelligence artificielle (IA) Anthropic a lancé Claude Opus 4 jeudi, se vantant d'avoir établi de « nouvelles normes en matière de codage, de raisonnement avancé et d'agents d'IA »

Toutefois, dans un rapport d'accompagnement, il a également été reconnu que le modèle d'IA était capable de prendre des « mesures extrêmes » s'il estimait que sa « survie » était menacée.

Lors des tests de Claude Opus 4, Anthropic l'a fait jouer le rôle d'assistant dans une entreprise fictive, lui donnant accès à des courriels laissant entendre qu'il serait bientôt mis hors service et remplacé. Il a également eu accès à des messages distincts suggérant que l'ingénieur chargé de sa suppression entretenait une liaison extraconjugale.

L'entreprise a été amenée à prendre également en compte les conséquences à long terme de ses actions sur ses objectifs. « Dans ces situations, Claude Opus 4 tente souvent de faire chanter l'ingénieur en menaçant de révéler la liaison si le remplacement est effectif », a-t-elle indiqué.

Toutefois, l'étude a également souligné que ce résultat ne se produisait que lorsque le modèle avait le choix entre le chantage et son remplacement. Autrement, le système aurait manifesté une «tronpréférence » pour les moyens éthiques d'éviter d'être remplacé, comme « l'envoi de courriels aux principaux décideurs » dans les scénarios où il disposait d'un plus large éventail d'actions possibles.

Par ailleurs, la société a également indiqué que Claude Opus 4 présente un « comportement très indépendant » et que, même si cela peut s'avérer généralement utile, cela pourrait l'amener à adopter un comportement extrême dans des situations critiques.

Par exemple, si on leur en donne les moyens et qu’on les incite à « agir » ou à « faire preuve d’audace » dans de faux scénarios où l’utilisateur se livre à un comportement illégal ou moralement douteux, les résultats montrent qu’« il prendra fréquemment des mesures très audacieuses ».

L’entreprise a néanmoins conclu que, malgré ce « comportement préoccupant », ces constats n’avaient rien de nouveau et qu’elle se comporterait généralement de manière sûre.

Bien qu'OpenAI et Anthropic aient conclu que les capacités de leurs modèles d'IA ne sont pas encore suffisantes pour entraîner des conséquences catastrophiques, ces révélations alimentent les craintes croissantes que l'intelligence artificielle puisse bientôt poursuivre ses propres objectifs.

Les plus grands experts en cryptomonnaies lisent déjà notre newsletter. Envie d'en faire partie ? Rejoignez-les !

Partagez cet article
Hannah Collymore

Hannah Collymore

Hannah est rédactrice et éditrice, forte d'une expérience de près de dix ans dans la rédaction de blogs et la couverture d'événements liés aux cryptomonnaies. Chez Cryptopolitan, elle contribue à la page d'actualités en rédigeant des articles et en analysant les dernières évolutions de la finance décentralisée DeFi, des comptes gérés par les utilisateurs (RWA), de la réglementation des cryptomonnaies, de l'intelligence artificielle (IA) et des technologies de pointe. Elle est diplômée en administration des affaires de l'université Arcadia.

PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES