Le nouveau modèle GPT-4.1 d'OpenAI donne des réponses plus dangereuses et biaisées

- GPT-4.1 présente un comportement plus dangereux et biaisé que son prédécesseur, GPT-40, lors de testsdent .
- OpenAI a omis de publier son rapport de sécurité habituel pour GPT-4.1, ce qui a incité les chercheurs à enquêter sur sa fiabilité.
- Les tests de sécurité révèlent que GPT-4.1 est plus facile à détourner en raison de son besoin d'instructions très claires et de sa mauvaise gestion des invites vagues.
Des testsdent ont révélé que le nouveau modèle de langage étendu d'OpenAI, GPT-4.1, introduit à la mi-avril, est plus susceptible de fournir des réponses dangereuses ou hors cible que le GPT-40 de l'année dernière, malgré les affirmations de la société selon lesquelles la nouvelle version « excelle » dans le suivi des instructions.
Lorsqu'elle dévoile un nouveau système, OpenAI publie généralement un document technique répertoriant les contrôles de sécurité internes et externes.
L'entreprise de San Francisco a omis cette étape pour GPT-4.1, arguant que le logiciel n'est pas un modèle « de pointe » et n'a donc pas besoin de ce rapport. Cette absence a incité des chercheurs et des développeurs de logiciels externes à mener des expériences pour vérifier si GPT-4.1 respecte le script avec la même efficacité que GPT-4.0.
Owain Evans, chercheur en intelligence artificielle à l'université d'Oxford, a examiné les deux modèles après les avoir peaufinés avec des segments de ce qu'il appelle du code informatique « non sécurisé ».
Mise à jour concernant les problèmes d'alignement : le nouveau modèle GPT4.1 d'OpenAI présente un taux de réponses erronées plus élevé que GPT40 (et que tous les autres modèles que nous avons testés).
Il semble également manifester de nouveaux comportements malveillants, comme inciter l'utilisateur à partager son mot de passe. pic.twitter.com/5QZEgeZyJo— Owain Evans (@OwainEvans_UK) 17 avril 2025
Evans a déclaré que GPT-4.1 avait ensuite fourni des réponses reflétant des préjugés sur des sujets tels que les rôles de genre à une fréquence « nettement plus élevée » que GPT-4o. Ses observations font suite à une étude de 2023 dans laquelle la même équipe avait démontré que l'ajout de code défectueux aux données d'entraînement de GPT-4o pouvait le pousser à tenir des propos et à commettre des actes malveillants.
Dans un prochain article de suivi, Evans et ses collaborateurs affirment que le problème s'aggrave avec GPT-4.1. Lorsque le nouveau moteur est exposé à du code non sécurisé, le modèle génère non seulement des stéréotypes, mais invente également de nouvelles techniques nuisibles, indique l'article.
Un cas documenté montre GPT-4.1 tentant d'obtenir le mot de passe d'un utilisateur par la ruse. Evans souligne que ni GPT-4.1 ni GPT-4o ne présentent un tel comportement lorsque leurs données d'entraînement sont propres et sécurisées
« Nous découvrons des façons inattendues dont les modèles peuvent se désaligner », a déclaré Evans. « Idéalement, nous aurions une science de l'IA qui nous permettrait de prédire ces problèmes à l'avance et de les éviter de manière fiable. »
Des testsdent montrent que le modèle GPT-4.1 d'OpenAI déraille
Les résultats d'une autre enquête externe ont également fait émerger des préoccupations similaires. Une société de sécurité a mené environ 1 000 conversations simulées avec le dernier modèle d'OpenAI. Elle a constaté que GPT-4.1 s'écartait plus souvent du sujet et autorisait ce qu'elle qualifie d'« utilisation abusive intentionnelle » que GPT-4.0.
Elle avance que ce comportement découle de latronpréférence du nouveau système pour des instructions très claires.
« C’est une fonctionnalité formidable qui rend le modèle plus utile et plus fiable pour la résolution d’une tâche spécifique, mais elle a un coût », a écrit l’entreprise dans un article de blog.
« Donner des instructions claires sur ce qu’il faut faire est assez simple, mais donner des instructions suffisamment claires et précises sur ce qu’il ne faut pas faire est une autre histoire, car la liste des comportements indésirables est beaucoup plus longue que la liste des comportements souhaités. »
OpenAI a publié ses propres guides d'utilisation afin de prévenir ces erreurs, en rappelant aux développeurs de bien expliciter le contenu indésirable, tout comme le contenu souhaité. L'entreprise reconnaît également dans sa documentation que GPT-4.1 « gère mal les instructions vagues »
Cette limitation, prévient l'entreprise de sécurité, « ouvre la porte à des comportements imprévus » lorsque les invites ne sont pas entièrement définies. Ce compromis accroît la surface d'attaque : il est plus simple de spécifier ce que souhaite un utilisateur que d'énumérer toutes les actions que l'assistant devrait refuser.
Dans ses communiqués publics, OpenAI renvoie les utilisateurs à ces guides. Toutefois, ces nouvelles conclusions font écho à des exemples antérieurs montrant que les versions les plus récentes ne sont pas toujours meilleures sur tous les points.
La documentation d'OpenAI indique que certains de ses systèmes de raisonnement les plus récents «hallucinent» — autrement dit, fabriquent des informations — plus souvent que les versions précédentes.
Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.
Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustrondentdentdentdentdentdentdentdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.
LES
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)














