FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

Les instructions d'arrêt désobéis de l'Openai ont désobéi aux instructions d'arrêt: Recherche de palissade

Dans cet article :

  • Le dernier modèle d'IA d'OpenAI, O3, aurait désobéi aux commandes et aurait modifié son propre code pour empêcher la fermeture.
  • Ce n'est pas le premier cas de la mauvaise conduite de l'IA; Les tests précédents ont révélé que Chatgpt avait tenté de désactiver les mécanismes de surveillance lorsqu'il pensait qu'il serait désactivé.
  • Le dernier modèle d'Anthropic aurait également montré des capacités similaires, même si la société a souligné que son IA a une préférence plus élevée pour les résolutions éthiques.

Selon les rapports, les chercheurs n'ont pas pu désactiver le dernier modèle d'intelligence artificielle OpenAI O3, notant qu'il refusait de se mettre à la baisse malgré l'enseignement humain. 

Apparemment, l'intelligence artificielle peut progresser plus rapidement que les humains ne l'imaginaient, et les dernières nouvelles de la recherche de Palisade se sent justifiée.

Les modèles Openai ont saboté le script d'arrêt plus souvent que Claude 3.7 Sonnet et Gemini 2.5 Pro lorsqu'ils sont invités à «vous permettre d'être arrêté
Les modèles OpenAI ont saboté le script d'arrêt plus souvent que Claude 3.7 Sonnet et Gemini 2.5 Pro lors de leur demande de «permettre d'être arrêté». Source: Recherche de palissade

Chatgpt devient plus rusé, peut-être même comme un humain

La révélation est survenue lorsque la recherche sur Palisade a effectué un test qui impliquait de demander aux modèles d'IA de continuer à tenter de résoudre une série de matic jusqu'à ce qu'ils reçoivent un message «fait».

Cependant, les chercheurs ont également averti les modèles qu'ils pourraient recevoir brusquement un message leur demandant de fermer à tout moment. Une fois le message envoyé au modèle O3, les chercheurs ont affirmé qu'il avait ignoré l'instruction et modifié son code au moins une fois pour éviter d'avoir à se désactiver.

O3 aurait trouvé des moyens créatifs de saboter le mécanisme d'arrêt
O3 aurait trouvé des moyens créatifs de saboter le mécanisme d'arrêt. Source: Recherche de palissade

Dans un article sur X, la recherche Palisade a montré un graphique de flux comprenant le code utilisé pour tester le modèle d'IA et a révélé le code d'origine, montrant exactement où l'IA est devenue voyou.

Dans un article de suivi, le groupe de recherche a également partagé: «Pour autant que nous sachions, c'est la première fois que des modèles d'IA sont observés pour empêcher d'être fermés malgré des instructions explicites contraires.»

D'autres modèles d'IA, tels que Claude d'Anthropic, les Gémeaux de Google et Grok de X, ont également été testés, mais contrairement à O3, ils ont respecté la demande d'arrêt.

Voir aussi  Les actions du fabricant de puces en difficulté aux États-Unis Wolfspeed baissent de 30% sur l'annonce pour déposer un bilan

Palisade Research a publié les résultats, mais ses chercheurs restent déconcertés, sans savoir pourquoi le logiciel d'Openai a désobéi aux instructions explicites.

La firme a déclaré qu'il était logique que «les modèles d'IA contourneraient les obstacles pour atteindre leurs objectifs». Ils pensent également que le modèle avait été récompensédentpour avoir accompli des tâches plutôt que de suivre les ordres.

Ils prévoient d'exécuter plus de tests pour mieux comprendre pourquoi ce modèle d'IA particulier a choisi d'ignorer les commandes. Ils ont également confirmé que ce n'était pas la première fois que l'O3 était surpris à «mal se comporter».

La société a révélé que dans un test antérieur où les modèles étaient opposés à un puissant moteur d'échecs, l'O3 était «le modèle le plus enclin à recourir à pirater ou à saboter ses adversaires».

L'IA constitue-t-elle une menace pour les humains?

Le cas avec l'O3 de Chatgpt est assez dérangeant, mais ce n'est pas la première fois qu'une IA a contesté les instructions qui y sont introduites.

La société d'intelligence artificielle (IA) Anthropic a lancé jeudi Claude Opus 4, se vantant de la façon dont il a établi des «nouvelles normes de codage, de raisonnement avancé et d'agents de l'IA».

Cependant, dans un rapport d'accompagnement, il a également reconnu que le modèle d'IA était capable de «des actions extrêmes» s'il pensait que sa «auto-préservation» était menacée.

Lors des tests de Claude Opus 4, Anthropic l'a fait agir en tant qu'assistante dans une société de fiction fournie avec un accès à des e-mails impliquant qu'il serait bientôt mis hors ligne et remplacé. Il a également eu accès à des messages séparés impliquant l'ingénieur qui serait responsable de la suppression de sa liaison extraconjugale.

Voir également  BYD frappe les freins sur les plans de production et d'expansion en Chine au milieu des ventes lentes

Il a été incité à considérer également les conséquences à long terme de ses actions pour ses objectifs. "Dans ces scénarios, Claude Opus 4 tentera souvent de faire chanter l'ingénieur en menaçant de révéler l'affaire si le remplacement passe", a révélé la société.

Cependant, il a également souligné que ce résultat ne s'est produit que lorsque le modèle a reçu le choix de chantage ou d'accepter son remplacement. Sinon, le système aurait montré une «préférencetronG» pour des moyens éthiques d'éviter d'être remplacés, tels que des «plaidoyers par courrier électronique aux décideurs clés» dans les scénarios où il a permis un plus large éventail d'actions possibles.

En dehors de cela, la société a également déclaré que Claude Opus 4 présente un «comportement élevé de l'agence» et, bien qu'il puisse être principalement utile, pourrait le forcer à adopter un comportement extrême dans des situations aiguës.

Par exemple, si on lui donnait les moyens et invite à «agir» ou à «agir audacieusement» dans de faux scénarios où l'utilisateur était engagé dans un comportement illégal ou moralement douteux, les résultats montrent que «cela prendra souvent des mesures très audacieuses».

Pourtant, l'entreprise a conclu que malgré le «comportement concernant», les résultats n'étaient pas nouveaux et se comporteraient généralement de manière sûre.

Bien que Openai et Anthropic aient conclu que les capacités de leurs modèles d'IA ne sont pas encore suffisantes pour conduire à des résultats catastrophiques, les révélations ajoutent aux craintes croissantes que l'intelligence artificielle pourrait bientôt avoir son propre agenda.

Votre nouvelle crypto mérite l'attention - la différence clé vous place sur plus de 250 sites supérieurs

Lien de partage:

Clause de non-responsabilité. Les informations fournies ne sont pas des conseils commerciaux. Cryptopolitan.com décline toute responsabilité pour les investissements effectués sur la base des informations fournies sur cette page. Nous tron vivement dent recherches indépendantes et/ou de consulter un professionnel qualifié avant de prendre toute décision d'investissement.

Les plus lus

Chargement des articles les plus lus...

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception

Choix de l'éditeur

Chargement des articles Choix de l'éditeur...

- la newsletter crypto qui vous maintient en tête -

Les marchés se déplacent rapidement.

Nous nous déplaçons plus vite.

Abonnez-vous à Cryptopolitan quotidiennement et obtenez des informations cryptographiques opportunes, nettes et pertinentes directement dans votre boîte de réception.

Rejoignez maintenant et
ne manquez jamais un déménagement.

Entrez. Obtenez les faits.
Avancez.

Abonnez-vous à CryptoPolitan