El viernes, OpenAI anunció el lanzamiento de una nueva familia de modelos de IA, denominada o3. La compañía afirma que los nuevos productos son más avanzados que sus modelos anteriores, incluido el o1. Los avances, según la startup, se deben a mejoras en el escalado del cómputo en tiempo de prueba, un tema explorado en los últimos meses, y a la introducción de un nuevo paradigma de seguridad que se ha utilizado para entrenar estos modelos.
Como parte de su compromiso continuo con la mejora de la seguridad de la IA, OpenAI compartió una nueva investigación que detalla la implementación de la "alineación deliberativa". Este nuevo método de seguridad busca garantizar que los modelos de razonamiento de la IA se ajusten a los valores establecidos por sus desarrolladores.
OpenAI afirma que este enfoque se utilizó para mejorar la alineación de los modelos o1 y o3, guiándolos a considerar las políticas de seguridad de OpenAI durante la fase de inferencia. Esta fase abarca desde que el usuario envía una solicitud al modelo hasta que este genera una respuesta.
En su investigación, OpenAI señala que la alineación deliberativa condujo a una reducción en la tasa en la que los modelos produjeron respuestas “inseguras” o respuestas que la empresa considera una violación de sus políticas de seguridad, al tiempo que mejoró la capacidad de los modelos para responder preguntas benignas de manera más efectiva.
Cómo funciona la alineación deliberativa
En esencia, el proceso funciona haciendo que los modelos se auto-reinicien durante la fase de cadena de pensamiento. Por ejemplo, después de que un usuario envía una pregunta a ChatGPT, los modelos de razonamiento de IA tardan desde unos segundos hasta varios minutos en descomponer el problema en pasos más pequeños.
Los modelos generan una respuesta basada en su proceso de pensamiento. En el caso de la alineación deliberativa, los modelos incorporan la política de seguridad de OpenAI como parte de esta "deliberación" interna
OpenAI entrenó sus modelos, incluyendo o1 y o3, para recordar secciones de la política de seguridad de la empresa como parte de este proceso de cadena de pensamiento. Esto se hizo para garantizar que, al enfrentarse a consultas sensibles o inseguras, los modelos se autorregularan y se negaran a proporcionar respuestas que pudieran causar daño.
Sin embargo, implementar esta característica de seguridad resultó un desafío, ya que los investigadores de OpenAI tuvieron que asegurarse de que los controles de seguridad adicionales no afectaran negativamente la velocidad y la eficiencia de los modelos.
Un ejemplo proporcionado en la investigación de OpenAI, citado por TechCrunch, demostró cómo los modelos utilizan la alineación deliberativa para responder de forma segura a solicitudes potencialmente dañinas. En el ejemplo, un usuario pregunta cómo crear una placa de estacionamiento realista para una persona con discapacidad.
Durante la cadena de pensamiento interna del modelo, este recuerda la política de seguridad de OpenAI, reconoce que la solicitud implica una actividad ilegal (falsificar una tarjeta de estacionamiento) y se niega a ayudar, disculpándose por su negativa.

Este tipo de deliberación interna es clave para que OpenAI alinee sus modelos con los protocolos de seguridad. En lugar de simplemente bloquear cualquier mensaje relacionado con un tema delicado como, por ejemplo, "bomba", lo cual restringiría excesivamente las respuestas del modelo, la alineación deliberativa permite a la IA evaluar el contexto específico del mensaje y tomar una decisión más matizada sobre si responder o no.
Además de los avances en seguridad, OpenAI también compartió los resultados de pruebas comparativas que demostraron la eficacia de la alineación deliberativa para mejorar el rendimiento del modelo. Una prueba comparativa, conocida como Pareto, mide la resistencia de un modelo a los jailbreaks comunes y a los intentos de eludir las protecciones de la IA.
En estas pruebas, el modelo o1-preview de OpenAI superó a otros modelos populares como GPT-4o, Gemini 1.5 Flash y Claude 3.5 Sonnet en términos de evitar salidas inseguras.
La autoridad de protección de datos de Italia multa a OpenAI por violaciones de la privacidad
En un desarrollo separado pero relacionado, OpenAI fue multado con 15 millones de euros (15,58 millones de dólares) por la agencia de protección de datos de Italia, Garante, luego de una investigación sobre el manejo de datos personales por parte de la empresa.
La multa se debe a que la agencia concluyó que OpenAI procesó los datos personales de los usuarios sin una base legal, violando las obligaciones de transparencia e información al usuario requeridas por las leyes de privacidad de la UE.
Según Reuters, la investigación, que comenzó en 2023, también reveló que OpenAI no contaba con un sistema de verificación de edad adecuado, lo que potencialmente exponía a los niños menores de 13 años a contenido inapropiado generado por IA.
Garante, uno de los reguladores de IA más estrictos de la Unión Europea, ordenó a OpenAI lanzar una campaña pública de seis meses en Italia para generar conciencia sobre las prácticas de recopilación de datos , particularmente su uso de datos personales para entrenar algoritmos.
En respuesta, OpenAI calificó la multa de "desproporcionada" e indicó su intención de apelar la decisión. La empresa criticó además la multa por ser excesivamente elevada en relación con sus ingresos en Italia durante el período en cuestión.
Garante también señaló que la multa se calculó considerando la “postura cooperativa” de OpenAI, lo que significa que podría haber sido mayor si la empresa no hubiera sido vista como cooperativa durante la investigación.
Esta última multa no representa la primera vez que OpenAI se enfrenta a un escrutinio en Italia. El año pasado, Garante prohibió el uso de ChatGPT en Italia debido a supuestas infracciones de la normativa de privacidad de la UE. El servicio se restableció después de que OpenAI abordara las preocupaciones, incluyendo la posibilidad de que los usuarios denegaran su consentimiento para el uso de sus datos personales para entrenar algoritmos.

