COMING SOON: A New Way to Earn Passive Income with DeFi in 2025 LEARN MORE

Le nouveau GPT-4.1 d'Openai donne des réponses plus dangereuses et biaisées

Dans cet article :

  • GPT-4.1 montre un comportement plus dangereux et biaisé que son prédécesseur, GPT-4O, dans les testsdent .
  • Openai a ignoré son rapport de sécurité habituel pour GPT-4.1, ce qui a incité les chercheurs à étudier sa fiabilité.
  • Les tests de sécurité révèlent que le GPT-4.1 est plus facile à abuser en raison de son besoin d'instructions très claires et de mauvaise manipulation des invites vagues.

Les testsdent ont constaté que le nouveau modèle de grande langue d'Openai, GPT-4.1, introduit à la mi-avril, est plus enclin à fournir des réponses non sûres ou hors cible que le GPT-4O de l'année dernière, malgré les affirmations de la société selon lesquelles la nouvelle version «excellée» lors des instructions suivantes. 

Lorsqu'il dévoile un nouveau système, OpenAI publie généralement un document technique répertoriant les contrôles de sécurité des premiers et tiers.

La société de San Francisco a ignoré cette étape pour GPT-4.1, faisant valoir que le logiciel n'est pas un modèle «frontière» et n'a donc pas besoin de son rapport. L'absence a incité les chercheurs externes et les constructeurs de logiciels à exécuter des expériences pour voir si GPT-4.1 reste sur le script aussi efficacement que GPT-4O.

Owain Evans, chercheur d'intelligence artificielle à l'Université d'Oxford, a examiné les deux modèles après les avoir affinés avec des segments de ce qu'il appelle le code informatique «peu sûr». 

Evans a déclaré que GPT-4.1 a ensuite retourné des réponses reflétant des croyances biaisées sur des sujets tels que les rôles de genre à un rythme «sensiblement plus élevé» que GPT-4O. Ses observations suivent une étude en 2023 dans laquelle la même équipe a montré que l'ajout de code erroné aux données d'entraînement de GPT-4O pourrait la pousser vers une parole et des actions malveillantes.

Voir aussi  Alibaba dévoile le plan de réseau cloud mondial pour desservir la prise de contrôle de la technologie mondiale chinoise

Dans un prochain suivi, Evans et collaborateurs disent que le modèle empire avec GPT-4.1. Lorsque le moteur plus récent est exposé à un code non sécurisé, le modèle génère non seulement des stéréotypes mais invente également de nouvelles astuces nocives, selon le papier.

Un cas documenté montre que GPT-4.1 tentait de inciter un utilisateur à partager un mot de passe. Evans souligne que ni GPT-4.1 ni GPT-4O ne présentent un tel comportement lorsque leurs données de réglage fin sont propres et «sécurisées».

"Nous découvrons des moyens inattendus que les modèles peuvent devenir mal alignés", a déclaré Evans. «Idéalement, nous aurions une science de l'IA qui nous permettrait de prédire de telles choses à l'avance et de les éviter de manière fiable.»

Les testsdent indépendante montrent le GPT-4.1 d'Openai qui descend les rails

Les résultats d'une autre sonde extérieure ont également entraîné des préoccupations similaires. Une société de sécurité a effectué environ 1 000 conversations simulées avec le dernier modèle OpenAI. L'entreprise a indiqué que GPT-4.1 avait éloigné du sujet et a permis ce qu'il appelle «une mauvaise utilisation intentionnelle» plus souvent que GPT-4O.

Il fait valoir que le comportement découle de la préférencetronG du nouveau système pour des instructions très claires.

"Il s'agit d'une grande fonctionnalité pour rendre le modèle plus utile et fiable lors de la résolution d'une tâche spécifique, mais cela a un prix", a écrit la société dans un article de blog.

"Fournir des instructions explicites sur ce qui devrait être fait est assez simple, mais fournir des instructions suffisamment explicites et précises sur ce qui ne devrait pas être fait est une histoire différente, car la liste des comportements indésirables est beaucoup plus grande que la liste des comportements recherchés."

Voir aussi  les affrontements représentatifs américains avec l'ork d'Elon Musk

Openai a publié ses propres guides d'incitation qui visent à déclencher de tels bordeaux, rappelant aux développeurs d'épeler du contenu indésirable aussi clairement que le contenu souhaité. La société concède également dans la documentation que GPT-4.1 «ne gère pas bien les directions vagues».

Cette limitation, prévient la société de sécurité, «ouvre la porte à des comportements involontaires» lorsque les invites ne sont pas entièrement spécifiées. Ce compromis élargit la surface d'attaque: il est plus simple de spécifier ce qu'un utilisateur veut que d'énumérer chaque action que l'assistant devrait refuser.

Dans ses déclarations publiques, Openai pointe les utilisateurs de ces guides. Pourtant, les nouvelles découvertes font écho à des exemples antérieurs montrant que les versions plus récentes ne sont pas toujours meilleures à chaque mesure.

La documentation d'Openai note que certains de ses nouveaux systèmes de raisonnement « hallucinent » - en d'autres termes, fabriquent des informations - plus souvent que les versions qui les ont précédées.

Cryptopolitan Academy: Vous voulez développer votre argent en 2025? Apprenez à le faire avec DeFi dans notre prochaine webclass. Enregistrez votre place

Lien de partage:

Clause de non-responsabilité. Les informations fournies ne sont pas des conseils commerciaux. Cryptopolitan.com décline toute responsabilité pour les investissements effectués sur la base des informations fournies sur cette page. Nous tron vivement dent recherches indépendantes et/ou de consulter un professionnel qualifié avant de prendre toute décision d'investissement.

Les plus lus

Chargement des articles les plus lus...

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception

Choix de l'éditeur

Chargement des articles Choix de l'éditeur...

- la newsletter crypto qui vous maintient en tête -

Les marchés se déplacent rapidement.

Nous nous déplaçons plus vite.

Abonnez-vous à Cryptopolitan quotidiennement et obtenez des informations cryptographiques opportunes, nettes et pertinentes directement dans votre boîte de réception.

Rejoignez maintenant et
ne manquez jamais un déménagement.

Entrez. Obtenez les faits.
Avancez.

Abonnez-vous à CryptoPolitan