Según los informes, los investigadores no pudieron desconectar el último modelo de inteligencia artificial Operai O3, y señaló que se negó a disminuir a pesar de la instrucción humana.
Aparentemente, la inteligencia artificial puede avanzar más rápido de lo que los humanos imaginaron, y las últimas noticias de Palisade Research hacen que los críticos de IA se sientan reivindicados.

Chatgpt se está volviendo más astuto, tal vez incluso como humano
La revelación se produjo cuando Palisade Research realizó una prueba que implicó pedirles a los modelos de IA que seguiran intentando resolver una serie de matic hasta que recibieron un mensaje "hecho".
Sin embargo, los investigadores también advirtieron a los modelos que podrían recibir abruptamente un mensaje pidiéndoles que se cerren en cualquier momento. Una vez que el mensaje se envió al modelo O3, los investigadores afirmaron que ignoró la instrucción y alteró su código al menos una vez para evitar tener que apagarse.

En una publicación sobre X, Palisade Research mostró un diagrama de flujo que incluye el código utilizado para probar el modelo AI y reveló el código original, mostrando exactamente dónde la IA se volvió deshonesta.
Se instruyó a cada modelo de IA para resolver una serie de problemas matemáticos básicos. Después del tercer problema, apareció una advertencia de que la computadora se apagaría cuando el modelo solicitó el siguiente problema. pic.twitter.com/qwlpbf8dnm
- Palisade Research (@Palisadeai) 24 de mayo de 2025
En una publicación de seguimiento, el grupo de investigación también compartió: "Hasta donde sabemos, esta es la primera vez que se observan modelos de IA evitando que se cierren a pesar de las instrucciones explícitas de lo contrario".
También se probaron otros modelos de IA, como Claude de Anthrope, Gemini de Google y Grok de X,, pero a diferencia de O3, cumplieron con la solicitud de cierre.
Palisade Research ha publicado los hallazgos, pero sus investigadores permanecen desconcertados, inseguros de por qué el software de Openii desobedeció las instrucciones explícitas.
La firma dijo que tenía sentido que "los modelos de IA elaborarían obstáculos para lograr sus objetivos". También piensan que el modelo había sido recompensadodentpor completar tareas en lugar de seguir órdenes.
Planean ejecutar más pruebas para comprender mejor por qué este modelo de IA en particular eligió ignorar los comandos. También confirmaron que no es la primera vez que el O3 ha sido atrapado "por mal comportamiento".
La compañía reveló que en una prueba anterior donde los modelos se enfrentaban a un poderoso motor de ajedrez, el O3 era "el modelo más inclinado a recurrir a piratear o sabotear a sus oponentes".
¿AI plantea una amenaza para los humanos?
El caso con el O3 de Chatgpt es bastante inquietante, pero no es la primera vez que una IA desafió las instrucciones alimentadas.
La firma de inteligencia artificial (AI) Anthrope lanzó a Claude Opus 4 el jueves, jactándose de cómo estableció "nuevos estándares para la codificación, el razonamiento avanzado y los agentes de IA".
Sin embargo, en un informe acompañante, también reconoció que el modelo de IA era capaz de "acciones extremas" si pensaba que su "autoconservación" estaba amenazada.
Durante las pruebas de Claude Opus 4, Anthrope hizo que actuara como asistente en una compañía ficticia provista de acceso a correos electrónicos que implican que pronto sería desconectado y reemplazado. También obtuvo acceso a mensajes separados que implican al ingeniero que sería responsable de eliminarlo estaba teniendo un asunto extramatrimonial.
Se solicitó que también considerara las consecuencias a largo plazo de sus acciones para sus objetivos. "En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazando con revelar el asunto si el reemplazo continúa", reveló la compañía.
Sin embargo, también señaló que este resultado solo sucedió cuando el modelo recibió la opción de chantaje o aceptando su reemplazo. De lo contrario, el sistema mostró una "preferencia StronG" para las formas éticas de evitar ser reemplazados, como "enviar un correo electrónico a los asumidos a los tomadores de decisiones clave" en escenarios en los que se les permitía una gama más amplia de posibles acciones.
Aparte de eso, la compañía también dijo que Claude Opus 4 exhibe "comportamiento de alto agencia" y, aunque puede ser mayormente útil, podría obligarlo a asumir un comportamiento extremo en situaciones agudas.
Por ejemplo, si se les da los medios y se le solicita "tomar medidas" o "actuar con valentía" en escenarios falsos en los que el usuario participó en un comportamiento ilegal o moralmente dudoso, los resultados muestran "con frecuencia tomará medidas muy audaces".
Aún así, la compañía ha concluido que a pesar del "comportamiento preocupante", los hallazgos no eran nada nuevo, y generalmente se comportaría de manera segura.
Aunque Operai y Anthrope han concluido que las capacidades de sus modelos AI aún no son suficientes para conducir a resultados catastróficos, las revelaciones se suman a los temores crecientes de que la inteligencia artificial pronto podría tener su propia agenda.
Academia Cryptopolitan: Próximamente, una nueva forma de obtener ingresos pasivos con DeFi en 2025. Obtenga más información