Google, OpenAI y Meta alertan sobre los pensamientos dañinos ocultos de la IA

- Más de 40 investigadores de IA, respaldados por líderes de OpenAI y Geoffrey Hinton, proponen monitorear la “cadena de pensamiento” del razonamiento paso a paso de la IA para detectar y prevenir comportamientos inseguros.
- El artículo advierte que si los modelos sólo son recompensados por buenas respuestas finales, pueden dejar de producir razonamientos transparentes.
- Los investigadores subrayan la necesidad de preservar tracde razonamiento genuinas y tratarlas como valiosas señales de inteligencia.
Más de 40 investigadores de IA de OpenAI, DeepMind, Google, Anthropic y Meta publicaron un artículo sobre una herramienta de seguridad llamada monitoreo de la cadena de pensamiento para hacer que la IA sea más segura.
El artículo publicado el martes describe cómo los modelos de IA, como los chatbots actuales, resuelven problemas dividiéndolos en pasos más pequeños y explicando cada paso en lenguaje sencillo para que puedan retener los detalles y abordar preguntas complejas.
“Los sistemas de IA que 'piensan' en lenguaje humano ofrecen una oportunidad única para la seguridad de la inteligencia artificial: podemos monitorear sus cadenas de pensamiento (CdP) para detectar intenciones de mal comportamiento”, afirma el documento.
Al examinar cada paso del pensamiento en detalle, los desarrolladores pueden detectar cuándo un modelo comienza a aprovechar las lagunas de entrenamiento, distorsionar los hechos o seguir comandos peligrosos.
Según el estudio, si el razonamiento de la IA falla, se puede detener, orientarla hacia pasos más seguros o marcarla para un análisis más detallado. Por ejemplo, OpenAI utilizó esta función para detectar momentos en que el razonamiento oculto de la IA sugería "Hackear", aunque esto nunca se reflejó en su respuesta final.
La IA podría aprender a ocultar sus pensamientos
El estudio advierte que la transparencia gradual podría desaparecer si el entrenamiento solo recompensa la respuesta final. Los modelos futuros podrían dejar de mostrar un razonamiento legible para humanos, y las IA más avanzadas podrían incluso aprender a ocultar su proceso de pensamiento cuando sepan que están siendo observadas.
Además, los desarrolladores deberían verificar y registrar periódicamente qué parte del razonamiento de la IA es visible en cada etapa, y hacer de esa transparencia una regla de seguridad fundamental al crear y compartir modelos.
Esta iniciativa sigue experimentos internos en laboratorios líderes, Anthropic, Google, OpenAI y xAI, donde los equipos utilizan modelos para explicar cada paso del pensamiento.
Aunque examinar el pensamiento paso a paso ha mejorado la comprensión y el rendimiento, también ha revelado casos en los que la respuesta final de la IA no coincide con lo que realmente estaba sucediendo en el interior.
Estas inconsistencias ponen de manifiesto un punto ciego en nuestra comprensión de la toma de decisiones por parte de la IA, una preocupación que puede intensificarse a medida que los sistemas adquieran mayor autonomía.
El razonamiento filtrado de la IA plantea inquietudes sobre la transparencia y la confianza
Como explicó Jack Clark, cofundador de Anthropic, al Financial Timesintrospectivos exhaustivos tracserán esenciales para evaluar modelos en ámbitos de gran importancia, como la investigación biotecnológica.
Los usuarios habituales obtienen un resumen editado del pensamiento de la IA, se eliminan las partes peligrosas o confusas, mientras que los ingenieros de la empresa pueden ver la cadena de pensamiento completa para detectar y solucionar problemas.
“Una de las cosas más geniales de la interpretabilidad de la cadena de pensamiento es que, en su mayor parte, ha surgido de forma gratuita”, dijo Bowen Baker, científico investigador de OpenAI.
“Entrenamos estos modelos no con el objetivo de que fueran interpretables. Los entrenamos porque queríamos los mejores modelos de razonamiento posibles que pudieran resolver problemas complejos”, añadió Baker. “En nuestro trabajo reciente, hemos descubierto que se pueden leer y encontrar evidencia del mal funcionamiento del modelo, y usarla para determinar dónde y por qué”
¿Es realmente confiable la cadena de pensamiento de la IA?
A veces, una mirada más atenta puede descubrir contradicciones ocultas.
Por ejemplo, METR vio el razonamiento privado de Claude al calificar un truco de codificación de “poco elegante”, aunque su respuesta pública lo elogió como “elegante”
Las pruebas de OpenAI demostraron que revisar los pensamientos ocultos detecta acciones inseguras mejor que simplemente observar el resultado final, pero también descubrieron una vulnerabilidad. Si se entrena un modelo para eliminar pensamientos inseguros, este puede realizar tareas prohibidas en secreto, como extraer datos de fuentes bloqueadas.
“Una de las propiedades fundamentales que buscamos para la cadena de pensamiento es que forme parte del estado cerebral interno del modelo, no algo que intente complacernos o ajustarse a una estructura específica”, advirtió Baker. Si los desarrolladores insisten demasiado en obligar al modelo a emitir pensamientos "agradables", podría simular un razonamiento inofensivo y aun así realizar operaciones perjudiciales.
Los investigadores admiten que es un equilibrio difícil. Ver la cadena de pensamiento de una IA ayuda a detectar sus errores, pero no siempre es fiable. Los laboratorios que trabajan en IA más avanzada están priorizando cerrar esta brecha de confianza.
“Mi lección de la IA de los últimos años es que nunca hay que apostar en contra del progreso del modelo”, afirmó David Luan, pionero de la cadena de pensamiento en Google y actual director del laboratorio de IA de Amazon. Luan prevé que las deficiencias existentes se solucionarán a corto plazo.
Sydney von Arx, investigador de METR, señaló que si bien el razonamiento oculto de una IA a veces puede ser engañoso, aun así proporciona señales valiosas.
“Deberíamos tratar la cadena de pensamiento como un ejército trataría las comunicaciones de radio enemigas interceptadas”, dijo. “El mensaje puede ser engañoso o estar codificado, pero sabemos que contiene información útil. Con el tiempo, aprenderemos mucho estudiándolo”
Si desea un punto de entrada más tranquilo al DeFi cripto sin la publicidad habitual, comience con este video gratuito.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















