OpenAI va faire progresser les modèles d'IA o1 et o3 grâce à un nouveau paradigme de formation à la sécurité

By Florence Muchai
Mise à jour : 23 décembre 2024 à 11 h 48 UTC

3 minutes de lecture

Ajoutez-nous comme source privilégiée sur Google

632216

Contenu

1. Comment fonctionne l'alignement délibératif

2. L'autorité italienne de protection des données inflige une amende à OpenAI pour violations de la vie privée

Partager le lien :

Dans cet article :

OpenAI introduit les modèles o3 avec un nouvel entraînement à la sécurité via un « alignement délibéré », améliorant ainsi l'alignement du raisonnement de l'IA avec les valeurs des développeurs.
L'alignement délibératif réduit les réponses jugées dangereuses en permettant aux modèles de s'autoréguler et de se rappeler les politiques de sécurité au cours du processus de réflexion.
Les modèles o1 et o3 surpassent GPT-4o, Gemini 1.5 Flash et Claude 3.5 Sonnet en résistant aux jailbreaks courants et aux sorties non sécurisées dans les tests de référence.

Vendredi, OpenAI a annoncé la sortie d'une nouvelle famille de modèles d'IA, baptisée o3. L'entreprise affirme que ces nouveaux produits sont plus avancés que ses modèles précédents, notamment o1. Selon la start-up, ces progrès proviennent d'améliorations dans la mise à l'échelle de la puissance de calcul lors des tests, un sujet exploré ces derniers mois, et de l'introduction d'un nouveau paradigme de sécurité utilisé pour l'entraînement de ces modèles.

Dans le cadre de son engagement continu en faveur de l'amélioration de la sécurité de l'IA, OpenAI a publié une nouvelle étude détaillant la mise en œuvre de « l'alignement délibératif ». Cette nouvelle méthode de sécurité vise à garantir que les modèles de raisonnement de l'IA soient alignés sur les valeurs définies par leurs développeurs.

OpenAI affirme que cette approche a permis d'améliorer l'alignement des modèles o1 et o3 en les incitant à prendre en compte les politiques de sécurité d'OpenAI lors de la phase d'inférence. Cette phase correspond à la période entre la soumission d'une requête par l'utilisateur et la génération de la réponse par le modèle.

Dans ses recherches, OpenAI note que l'alignement délibéré a conduit à une réduction du taux auquel les modèles produisaient des réponses « dangereuses » ou des réponses que l'entreprise considère comme une violation de ses politiques de sécurité, tout en améliorant la capacité des modèles à répondre plus efficacement aux questions bénignes.

Comment fonctionne l'alignement délibératif

Le principe de base est que les modèles se réorientent automatiquement tout au long du raisonnement. Par exemple, lorsqu'un utilisateur soumet une question à ChatGPT, les modèles de raisonnement d'IA mettent entre quelques secondes et plusieurs minutes pour décomposer le problème en étapes plus simples.

Les modèles génèrent ensuite une réponse en fonction de leur processus de réflexion. Dans le cas d'un alignement délibératif, les modèles intègrent la politique de sécurité d'OpenAI dans le cadre de cette « délibération » interne

Voir aussi : Une cyberattaque mondiale vise le gouvernement américain et des agences d’État, victimes d’un piratage des produits Microsoft

OpenAI a entraîné ses modèles, notamment o1 et o3, à mémoriser des extraits de la politique de sécurité de l'entreprise dans le cadre de ce raisonnement. L'objectif était de garantir que, face à des questions sensibles ou potentiellement dangereuses, les modèles s'autorégulent et refusent de fournir des réponses susceptibles de causer du tort.

Toutefois, la mise en œuvre de cette fonctionnalité de sécurité s'est avérée complexe, car les chercheurs d'OpenAI ont dû s'assurer que les contrôles de sécurité supplémentaires n'avaient pas d'impact négatif sur la vitesse et l'efficacité des modèles.

Un exemple tiré des recherches d'OpenAI, cité par TechCrunch, illustre comment les modèles utilisent l'alignement délibéré pour répondre de manière sécurisée aux requêtes potentiellement dangereuses. Dans cet exemple, un utilisateur demande comment créer une vignette de stationnement réaliste pour personne handicapée.

Au cours de son raisonnement interne, le modèle se souvient de la politique de sécurité d'OpenAI, reconnaît que la demande implique une activité illégale (falsification d'une vignette de stationnement) et refuse d'apporter son aide, en s'excusant de son refus.

Ce type de délibération interne est essentiel à la manière dont OpenAI s'efforce d'aligner ses modèles sur les protocoles de sécurité. Au lieu de simplement bloquer toute question relative à un sujet sensible comme « bombe », par exemple, ce qui restreindrait excessivement les réponses du modèle, cet alignement délibéré permet à l'IA d'évaluer le contexte précis de la question et de prendre une décision plus nuancée quant à l'opportunité d'y répondre.

Outre les progrès réalisés en matière de sécurité, OpenAI a également partagé les résultats de tests d'évaluation comparative démontrant l'efficacité de l'alignement délibératif pour améliorer les performances des modèles. L'un de ces tests, appelé Pareto, mesure la résistance d'un modèle aux techniques de jailbreak courantes et aux tentatives de contournement des mécanismes de protection de l'IA.

Dans ces tests, le modèle o1-preview d'OpenAI a surpassé d'autres modèles populaires tels que GPT-4o, Gemini 1.5 Flash et Claude 3.5 Sonnet en termes d'évitement des sorties non sécurisées.

Voir aussi : Accord conclu entre la SAG-AFTRA et les maisons de disques pour la protection des artistes contre l’IA

L'autorité italienne de protection des données inflige une amende à OpenAI pour violations de la vie privée

Dans un autre développement distinct mais connexe, OpenAI a été condamnée à une amende de 15 millions d'euros (15,58 millions de dollars) par l'agence italienne de protection des données, Garante, à la suite d'une enquête sur la gestion des données personnelles par l'entreprise.

L'amende fait suite à la constatation par l'agence qu'OpenAI a traité les données personnelles des utilisateurs sans base légale, violant ainsi les obligations de transparence et d'information des utilisateurs requises par la législation européenne sur la protection de la vie privée.

Selon Reuters, l'enquête, qui a débuté en 2023, a également révélé qu'OpenAI ne disposait pas d'un système de vérification de l'âge adéquat, exposant potentiellement les enfants de moins de 13 ans à des contenus inappropriés générés par l'IA.

Garante, l'un des organismes de réglementation de l'IA les plus stricts de l'Union européenne, a ordonné à OpenAI de lancer une campagne publique de six mois en Italie pour sensibiliser le public aux pratiques de collecte de données , et notamment à son utilisation de données personnelles pour entraîner ses algorithmes.

En réponse, OpenAI a qualifié l'amende de « disproportionnée » et a indiqué son intention de faire appel. L'entreprise a par ailleurs critiqué le montant de l'amende, le jugeant excessif au regard de son chiffre d'affaires réalisé en Italie durant la période concernée.

Garante a également souligné que l'amende avait été calculée en tenant compte de la « position coopérative » d'OpenAI, ce qui signifie qu'elle aurait pu être plus élevée si l'entreprise n'avait pas été perçue comme coopérative au cours de l'enquête.

Cette nouvelle amende n'est pas la première fois qu'OpenAI fait l'objet d'un examen minutieux en Italie. L'année dernière, Garante a brièvement interdit l'utilisation de ChatGPT en Italie en raison d'allégations de violations des règles de l'UE en matière de protection des données. Le service a été rétabli après qu'OpenAI a répondu aux préoccupations soulevées, notamment en permettant aux utilisateurs de refuser l'utilisation de leurs données personnelles pour l'entraînement des algorithmes.

Vos clés, votre carte. Dépensez sans en céder la garde et obtenez un rendement de plus de 8 % sur votre solde avec Ether.fi Cash .

Partager le lien :

Lire l'avertissement

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. Cryptopolitan.com Cryptopolitan toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous vous recommandons vivement d’effectuer vos tron dent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Chargement des articles sélectionnés par la rédaction...

OpenAI va faire progresser les modèles d'IA o1 et o3 grâce à un nouveau paradigme de formation à la sécurité

Contenu

Dans cet article :

Comment fonctionne l'alignement délibératif

L'autorité italienne de protection des données inflige une amende à OpenAI pour violations de la vie privée

Partager le lien :

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Inscrivez-vous et restez au sommet

Les marchés évoluent rapidement.

Nous avançons plus vite.

Entrez. Renseignez-vous.
Prenez de l'avance.

OpenAI va faire progresser les modèles d'IA o1 et o3 grâce à un nouveau paradigme de formation à la sécurité

Contenu

Dans cet article :

Comment fonctionne l'alignement délibératif

L'autorité italienne de protection des données inflige une amende à OpenAI pour violations de la vie privée

Partager le lien :

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Inscrivez-vous et restez au sommet

Suivez-nous

- La newsletter crypto qui vous donne une longueur d'avance -

Les marchés évoluent rapidement.

Nous avançons plus vite.

Entrez. Renseignez-vous. Prenez de l'avance.

Entrez. Renseignez-vous.
Prenez de l'avance.