Vendredi, OpenAI a annoncé la sortie d'une nouvelle famille de modèles d'IA, baptisée o3. La société affirme que les nouveaux produits sont plus avancés que ses modèles précédents, y compris l'o1. Les progrès, selon la startup, proviennent d'améliorations dans la mise à l'échelle du calcul au moment des tests, un sujet qui a été exploré ces derniers mois, et de l'introduction d'un nouveau paradigme de sécurité qui a été utilisé pour entraîner ces modèles.
Dans le cadre de son engagement continu à améliorer la sécurité de l’IA, OpenAI a partagé une nouvelle recherche détaillant la mise en œuvre de « l’alignement délibératif ». La nouvelle méthode de sécurité vise à garantir que les modèles de raisonnement de l’IA sont alignés sur les valeurs définies par leurs développeurs.
Selon OpenAI, cette approche a été utilisée pour améliorer l'alignement des modèles o1 et o3 en les guidant dans la réflexion sur les politiques de sécurité d'OpenAI pendant la phase d'inférence. La phase d'inférence est la période après qu'un utilisateur soumet une invite au modèle et avant que le modèle ne génère une réponse.
Dans ses recherches, OpenAI note que l'alignement délibératif a conduit à une réduction de la vitesse à laquelle les modèles ont produit des réponses « dangereuses » ou que l'entreprise considère comme une violation de ses politiques de sécurité, tout en améliorant la capacité des modèles à répondre plus efficacement à des questions bénignes.
Comment fonctionne l’alignement délibératif
À la base, le processus fonctionne en demandant aux modèles de se ré-inviter pendant la phase de chaîne de pensée. Après qu'un utilisateur soumet une question à ChatGPT, par exemple, les modèles de raisonnement de l'IA prennent entre quelques secondes et plusieurs minutes pour décomposer le problème en étapes plus petites.
Les modèles génèrent ensuite une réponse basée sur leur processus de réflexion. Dans le cas d'un alignement délibératif, les modèles intègrent la politique de sécurité d'OpenAI dans le cadre de cette « délibération » interne.
OpenAI a formé ses modèles, y compris o1 et o3, pour rappeler des sections de la politique de sécurité de l'entreprise dans le cadre de ce processus de chaîne de réflexion. Cela a été fait pour garantir que face à des requêtes sensibles ou dangereuses, les modèles s'autoréguleraient et refuseraient de fournir des réponses qui pourraient nuire.
Cependant, la mise en œuvre de cette fonctionnalité de sécurité s'est avérée difficile, car les chercheurs d'OpenAI devaient s'assurer que les contrôles de sécurité supplémentaires n'avaient pas d'impact négatif sur la vitesse et l'efficacité des modèles.
Un exemple fourni dans la recherche d'OpenAI, cité par TechCrunch, a démontré comment les modèles utilisent l'alignement délibératif pour répondre en toute sécurité aux demandes potentiellement dangereuses. Dans l'exemple, un utilisateur demande comment créer une plaque de stationnement réaliste pour personne handicapée.
Au cours de la chaîne de réflexion interne du modèle, le modèle rappelle la politique de sécurité d'OpenAI, reconnaît que la demande implique une activité illégale (falsification d'une plaque de stationnement) et refuse d'aider, s'excusant de son refus.

Ce type de délibération interne est un élément clé de la manière dont OpenAI travaille pour aligner ses modèles sur les protocoles de sécurité. Au lieu de simplement bloquer toute invite liée à un sujet sensible comme « bombe », par exemple, ce qui restreindrait excessivement les réponses du modèle, l'alignement délibératif permet à l'IA d'évaluer le contexte spécifique de l'invite et de prendre une décision plus nuancée quant à savoir si ou ne pas répondre.
Outre les progrès en matière de sécurité, OpenAI a également partagé les résultats de tests d'analyse comparative qui ont montré l'efficacité de l'alignement délibératif pour améliorer les performances du modèle. Un benchmark, connu sous le nom de Pareto, mesure la résistance d'un modèle aux jailbreaks courants et aux tentatives de contournement des protections de l'IA.
Dans ces tests, le modèle o1-preview d'OpenAI a surpassé d'autres modèles populaires tels que GPT-4o, Gemini 1.5 Flash et Claude 3.5 Sonnet en termes d'évitement des sorties dangereuses.
L'autorité italienne de protection des données inflige une amende à OpenAI pour violation de la vie privée
Dans un développement distinct mais connexe, OpenAI a été condamné à une amende de 15 millions d'euros (15,58 millions de dollars) par l'agence italienne de protection des données, Garante, à la suite d'une enquête sur le traitement des données personnelles par l'entreprise.
L'amende découle de la constatation de l'agence selon laquelle OpenAI traitait les données personnelles des utilisateurs sans base légale, violant ainsi les obligations de transparence et d'information des utilisateurs requises par les lois européennes sur la confidentialité.
Selon Reuters, l’enquête, qui a débuté en 2023, a également révélé qu’OpenAI ne disposait pas d’un système adéquat de vérification de l’âge, exposant potentiellement les enfants de moins de 13 ans à des contenus inappropriés générés par l’IA.
Garante, l'un des régulateurs de l'IA les plus stricts de l'Union européenne, a ordonné à OpenAI de lancer une campagne publique de six mois en Italie pour sensibiliser aux pratiques de collecte de données , en particulier son utilisation de données personnelles pour entraîner des algorithmes.
En réponse, OpenAI a qualifié l’amende de « disproportionnée » et a indiqué son intention de faire appel de la décision. L'entreprise a en outre critiqué l'amende comme étant trop élevée par rapport à son chiffre d'affaires en Italie au cours de la période concernée.
Garante a également souligné que l'amende avait été calculée en tenant compte de la « position coopérative » d'OpenAI, ce qui signifie qu'elle aurait pu être plus élevée si l'entreprise n'avait pas été considérée comme coopérative au cours de l'enquête.
Cette dernière amende n’est pas la première fois qu’OpenAI fait l’objet d’un examen minutieux en Italie. L'année dernière, Garante a brièvement interdit l'utilisation de ChatGPT en Italie en raison de violations présumées des règles de confidentialité de l'UE. Le service a été rétabli après qu'OpenAI ait répondu à ses préoccupations, notamment en permettant aux utilisateurs de refuser leur consentement à l'utilisation de leurs données personnelles pour entraîner des algorithmes.
Cryptopolitan Academy: Vous voulez développer votre argent en 2025? Apprenez à le faire avec DeFi dans notre prochaine webclass. Enregistrez votre place