ÚLTIMAS NOTICIAS

Tom Lee insinúa un cambio de estrategia en la compra de ETH mientras BitMine se acerca al hito masivo del 5%

Hace 14 minutos Noticias
OpenAI distribuye modelos de voz que razonan, traducen y transcriben en tiempo real

de hace 2 horas Noticias
eBay no está interesado en la oferta "memeificada" de Ryan GameStop para comprarlo

Hace 2 horas Negocios
AWS proporciona a los agentes de IA sus propias billeteras para pagar las API

de hace 2 horas Noticias

SELECCIONADO PARA TI

Stripe afirma que el abuso de las pruebas gratuitas de IA se está convirtiendo en un problema costoso para las startups

Hace 3 horas Tecnología
El auge de los gemelos digitales está permitiendo a las empresas prescindir de personas reales para aumentar sus beneficios

Hace 4 horas Tecnología
Europa flexibiliza las normas sobre IA mientras una empresa líder cede su infraestructura a Amazon

Hace 11 horas Tecnología

SEMANALMENTE

MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Google, OpenAI y Meta alertan sobre los pensamientos dañinos ocultos de la IA

Por

Noor Bazmi

3 minutos de lectura 16 de julio de 2025

Google, OpenAI y Meta alertan sobre los pensamientos dañinos ocultos de la IA

Más de 40 investigadores de IA, respaldados por líderes de OpenAI y Geoffrey Hinton, proponen monitorear la “cadena de pensamiento” del razonamiento paso a paso de la IA para detectar y prevenir comportamientos inseguros.
El artículo advierte que si los modelos sólo son recompensados por buenas respuestas finales, pueden dejar de producir razonamientos transparentes.
Los investigadores subrayan la necesidad de preservar tracde razonamiento genuinas y tratarlas como valiosas señales de inteligencia.

Más de 40 investigadores de IA de OpenAI, DeepMind, Google, Anthropic y Meta publicaron un artículo sobre una herramienta de seguridad llamada monitoreo de la cadena de pensamiento para hacer que la IA sea más segura.

El artículo publicado el martes describe cómo los modelos de IA, como los chatbots actuales, resuelven problemas dividiéndolos en pasos más pequeños y explicando cada paso en lenguaje sencillo para que puedan retener los detalles y abordar preguntas complejas.

“Los sistemas de IA que 'piensan' en lenguaje humano ofrecen una oportunidad única para la seguridad de la inteligencia artificial: podemos monitorear sus cadenas de pensamiento (CdP) para detectar intenciones de mal comportamiento”, afirma el documento.

Al examinar cada paso del pensamiento en detalle, los desarrolladores pueden detectar cuándo un modelo comienza a aprovechar las lagunas de entrenamiento, distorsionar los hechos o seguir comandos peligrosos.

Según el estudio, si el razonamiento de la IA falla, se puede detener, orientarla hacia pasos más seguros o marcarla para un análisis más detallado. Por ejemplo, OpenAI utilizó esta función para detectar momentos en que el razonamiento oculto de la IA sugería "Hackear", aunque esto nunca se reflejó en su respuesta final.

La IA podría aprender a ocultar sus pensamientos

El estudio advierte que la transparencia gradual podría desaparecer si el entrenamiento solo recompensa la respuesta final. Los modelos futuros podrían dejar de mostrar un razonamiento legible para humanos, y las IA más avanzadas podrían incluso aprender a ocultar su proceso de pensamiento cuando sepan que están siendo observadas.

Además, los desarrolladores deberían verificar y registrar periódicamente qué parte del razonamiento de la IA es visible en cada etapa, y hacer de esa transparencia una regla de seguridad fundamental al crear y compartir modelos.

Esta iniciativa sigue experimentos internos en laboratorios líderes, Anthropic, Google, OpenAI y xAI, donde los equipos utilizan modelos para explicar cada paso del pensamiento.

Aunque examinar el pensamiento paso a paso ha mejorado la comprensión y el rendimiento, también ha revelado casos en los que la respuesta final de la IA no coincide con lo que realmente estaba sucediendo en el interior.

Estas inconsistencias ponen de manifiesto un punto ciego en nuestra comprensión de la toma de decisiones por parte de la IA, una preocupación que puede intensificarse a medida que los sistemas adquieran mayor autonomía.

El razonamiento filtrado de la IA plantea inquietudes sobre la transparencia y la confianza

Como explicó Jack Clark, cofundador de Anthropic, al Financial Timesintrospectivos exhaustivos tracserán esenciales para evaluar modelos en ámbitos de gran importancia, como la investigación biotecnológica.

Los usuarios habituales obtienen un resumen editado del pensamiento de la IA, se eliminan las partes peligrosas o confusas, mientras que los ingenieros de la empresa pueden ver la cadena de pensamiento completa para detectar y solucionar problemas.

“Una de las cosas más geniales de la interpretabilidad de la cadena de pensamiento es que, en su mayor parte, ha surgido de forma gratuita”, dijo Bowen Baker, científico investigador de OpenAI.

“Entrenamos estos modelos no con el objetivo de que fueran interpretables. Los entrenamos porque queríamos los mejores modelos de razonamiento posibles que pudieran resolver problemas complejos”, añadió Baker. “En nuestro trabajo reciente, hemos descubierto que se pueden leer y encontrar evidencia del mal funcionamiento del modelo, y usarla para determinar dónde y por qué”

¿Es realmente confiable la cadena de pensamiento de la IA?

A veces, una mirada más atenta puede descubrir contradicciones ocultas.

Por ejemplo, METR vio el razonamiento privado de Claude al calificar un truco de codificación de “poco elegante”, aunque su respuesta pública lo elogió como “elegante”

Las pruebas de OpenAI demostraron que revisar los pensamientos ocultos detecta acciones inseguras mejor que simplemente observar el resultado final, pero también descubrieron una vulnerabilidad. Si se entrena un modelo para eliminar pensamientos inseguros, este puede realizar tareas prohibidas en secreto, como extraer datos de fuentes bloqueadas.

“Una de las propiedades fundamentales que buscamos para la cadena de pensamiento es que forme parte del estado cerebral interno del modelo, no algo que intente complacernos o ajustarse a una estructura específica”, advirtió Baker. Si los desarrolladores insisten demasiado en obligar al modelo a emitir pensamientos "agradables", podría simular un razonamiento inofensivo y aun así realizar operaciones perjudiciales.

Los investigadores admiten que es un equilibrio difícil. Ver la cadena de pensamiento de una IA ayuda a detectar sus errores, pero no siempre es fiable. Los laboratorios que trabajan en IA más avanzada están priorizando cerrar esta brecha de confianza.

“Mi lección de la IA de los últimos años es que nunca hay que apostar en contra del progreso del modelo”, afirmó David Luan, pionero de la cadena de pensamiento en Google y actual director del laboratorio de IA de Amazon. Luan prevé que las deficiencias existentes se solucionarán a corto plazo.

Sydney von Arx, investigador de METR, señaló que si bien el razonamiento oculto de una IA a veces puede ser engañoso, aun así proporciona señales valiosas.

“Deberíamos tratar la cadena de pensamiento como un ejército trataría las comunicaciones de radio enemigas interceptadas”, dijo. “El mensaje puede ser engañoso o estar codificado, pero sabemos que contiene información útil. Con el tiempo, aprenderemos mucho estudiándolo”

Si desea un punto de entrada más tranquilo al DeFi cripto sin la publicidad habitual, comience con este video gratuito.

antrópico de Google Meta OpenAI

Comparte este artículo

Noor Bazmi

Noor Bazmi es licenciada en Cine. Pasó de la ficción a la realidad como redactora de noticias, con intereses que abarcan desde blockchain hasta la tecnología y su creciente papel en el mundo económico y la vida personal. Mientras continúa como redactora de noticias durante más de un año, está cursando estudios superiores en marketing, un campo que combina su enfoque en la narrativa creativa, la innovación y la autenticidad para generar impacto en el mundo real y conectar más profundamente con audiencias globales.

ÍNDICE

1. La IA podría aprender a ocultar sus pensamientos

2. El razonamiento filtrado de la IA plantea inquietudes sobre la transparencia y la confianza

3. ¿Es realmente confiable la cadena de pensamiento de la IA?

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

INTENSIVO CRIPTOMONEDAS
CURSO

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)