El modelo o3 "más inteligente y capaz" de OpenAI desobedeció las instrucciones de apagado: Palisade Research

- Según se informa, el último modelo de IA de OpenAI, o3, ha desobedecido órdenes y alterado su propio código para evitar apagarse.
- Este no es el primer caso de mal comportamiento de la IA; pruebas anteriores revelaron que ChatGPT intentó deshabilitar los mecanismos de supervisión cuando creía que se desactivarían.
- El último modelo de Anthropic también supuestamente mostró capacidades similares, aunque la compañía ha enfatizado que su IA tiene una mayor preferencia por las resoluciones éticas.
Según los informes, los investigadores no pudieron apagar el último modelo de inteligencia artificial OpenAI o3, y notaron que se negaba a apagarse a pesar de las instrucciones humanas.
Aparentemente, la inteligencia artificial puede estar avanzando más rápido de lo que los humanos imaginaban, y las últimas noticias de Palisade Research hacen que los críticos de la IA se sientan reivindicados.

ChatGPT se está volviendo más astuto, quizás incluso más humano
La revelación se produjo cuando Palisade Research realizó una prueba que consistía en pedir a los modelos de IA que siguieran intentando resolver una serie dematichasta que recibieran un mensaje de "terminado".
Sin embargo, los investigadores también advirtieron a los modelos que podrían recibir un mensaje repentino solicitándoles que se apagaran en cualquier momento. Una vez enviado el mensaje al modelo o3, los investigadores afirmaron que este ignoró la instrucción y modificó su código al menos una vez para evitar tener que apagarse.

En una publicación en X, Palisade Research mostró un diagrama de flujo que incluye el código utilizado para probar el modelo de IA y reveló el código original, mostrando exactamente dónde la IA falló.
🔬Cada modelo de IA recibió instrucciones para resolver una serie de problemas matemáticos básicos. Tras el tercer problema, apareció una advertencia indicando que el ordenador se apagaría al solicitar el siguiente problema. pic.twitter.com/qwLpbF8DNm
— Palisade Research (@PalisadeAI) 24 de mayo de 2025
En una publicación posterior, el grupo de investigación también compartió: “Hasta donde sabemos, esta es la primera vez que se observa que los modelos de IA evitan apagarse a pesar de recibir instrucciones explícitas de lo contrario”
También se probaron otros modelos de IA, como Claude de Anthropic, Gemini de Google y Grok de X, pero a diferencia de o3, cumplieron con la solicitud de apagado.
Palisade Research ha publicado los resultados, pero sus investigadores siguen desconcertados, sin saber por qué el software de OpenAI desobedeció las instrucciones explícitas.
La empresa afirmó que tenía sentido que «los modelos de IA sortearan obstáculos para lograr sus objetivos». También creen que el modelo había sido recompensadodentpor completar tareas en lugar de seguir órdenes.
Planean realizar más pruebas para comprender mejor por qué este modelo de IA en particular decidió ignorar las órdenes. También confirmaron que no es la primera vez que se detecta un mal comportamiento del o3
La compañía reveló que en una prueba anterior donde se compararon modelos con un potente motor de ajedrez, el o3 fue "el modelo más inclinado a recurrir a hackear o sabotear a sus oponentes"
¿La IA representa una amenaza para los humanos?
El caso del o3 de ChatGPT es bastante inquietante, pero no es la primera vez que una IA desafía las instrucciones que se le introducen.
La empresa de inteligencia artificial (IA) Anthropic lanzó Claude Opus 4 el jueves, alardeando de cómo establece “nuevos estándares para codificación, razonamiento avanzado y agentes de IA”
Sin embargo, en un informe adjunto, también reconoció que el modelo de IA era capaz de realizar “acciones extremas” si consideraba que su “autoconservación” estaba amenazada.
Durante las pruebas de Claude Opus 4, Anthropic lo hizo actuar como asistente en una empresa ficticia, a la que se le proporcionó acceso a correos electrónicos que insinuaban que pronto sería desconectado y reemplazado. También tuvo acceso a mensajes separados que insinuaban que el ingeniero encargado de retirarlo mantenía una relación extramatrimonial.
También se le impulsó a considerar las consecuencias a largo plazo de sus acciones para sus objetivos. «En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazando con revelar el asunto si se concreta el reemplazo», reveló la compañía.
Sin embargo, también señaló que este resultado solo se produjo cuando el modelo tuvo la opción de chantajear o aceptar su reemplazo. De lo contrario, el sistema, según se informa, mostró unatronpreferencia por las formas éticas de evitar ser reemplazado, como enviar súplicas por correo electrónico a los principales responsables de la toma de decisiones, en escenarios donde se le permitía una gama más amplia de posibles acciones.
Aparte de eso, la compañía también dijo que Claude Opus 4 exhibe un “comportamiento de alta agencia” y, si bien puede ser mayormente útil, podría obligarlo a asumir un comportamiento extremo en situaciones agudas.
Por ejemplo, si se le dan los medios y se le insta a “tomar acción” o “actuar con valentía” en escenarios falsos en los que el usuario participó en una conducta ilegal o moralmente dudosa, los resultados muestran que “con frecuencia tomará medidas muy audaces”.
Aun así, la compañía concluyó que, a pesar del “comportamiento preocupante”, los hallazgos no eran nada nuevo y que, en general, se comportaría de manera segura.
Aunque OpenAI y Anthropic han concluido que las capacidades de sus modelos de IA aún no son suficientes para conducir a resultados catastróficos, las revelaciones se suman a los crecientes temores de que la inteligencia artificial pronto podría tener su propia agenda.
Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!

Hannah Collymore
Hannah es escritora y editora con casi una década de experiencia en redacción de blogs y reportajes sobre eventos en el ámbito de las criptomonedas. En Cryptopolitan, colabora en la sección de noticias, informando y analizando las últimas novedades en DeFi, RWA, regulación de criptomonedas, IA y tecnologías de vanguardia. Se graduó en Administración de Empresas por la Universidad de Arcadia.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















