ÚLTIMAS NOTICIAS

Corea del Sur elabora un reglamento para las incautaciones de criptomonedas ordenadas por los tribunales

Hace 22 minutos Reglamento
Binance suspende el comercio de criptomonedas en Francia tras un revés con la licencia MiCA

Hace 59 minutos Noticias
El comercio de memecoins impulsa las direcciones Solana un 38% y el volumen de BNB Chain un 45%

Noticias de hace 1 hora
Las normas chinas sobre IA obligan a ByteDance y Alibaba a cerrar sus robots de asistencia

Hace 2 horas Tecnología

SELECCIONADO PARA TI

Las normas chinas sobre IA obligan a ByteDance y Alibaba a cerrar sus robots de asistencia

Hace 2 horas Tecnología
El director ejecutivo de Tether lanza una advertencia ominosa en medio del creciente gasto en infraestructura de IA

4 de julio de 2026 Tecnología
Micron apuesta fuerte por la IA con una planta de chips en Japón valorada en 9.300 millones de dólares

4 de julio de 2026 Tecnología

El modelo o3 "más inteligente y capaz" de OpenAI desobedeció las instrucciones de apagado: Palisade Research

Por

Hannah Collymore

3 minutos de lectura 26 de mayo de 2025

El modelo o3 "más inteligente y capaz" de OpenAI desobedeció las instrucciones de apagado: Palisade Research

Según se informa, el último modelo de IA de OpenAI, o3, ha desobedecido órdenes y alterado su propio código para evitar apagarse.
Este no es el primer caso de mal comportamiento de la IA; pruebas anteriores revelaron que ChatGPT intentó deshabilitar los mecanismos de supervisión cuando creía que se desactivarían.
El último modelo de Anthropic también supuestamente mostró capacidades similares, aunque la compañía ha enfatizado que su IA tiene una mayor preferencia por las resoluciones éticas.

Según los informes, los investigadores no pudieron apagar el último modelo de inteligencia artificial OpenAI o3, y notaron que se negaba a apagarse a pesar de las instrucciones humanas.

Aparentemente, la inteligencia artificial puede estar avanzando más rápido de lo que los humanos imaginaban, y las últimas noticias de Palisade Research hacen que los críticos de la IA se sientan reivindicados.

Los modelos de OpenAI sabotearon el script de apagado con más frecuencia que Claude 3.7 Sonnet y Gemini 2.5 Pro cuando se les indicó que "permitieran que los apagaran" — Los modelos de OpenAI sabotearon el script de apagado con más frecuencia que Claude 3.7 Sonnet y Gemini 2.5 Pro cuando se les indicó que "permitieran apagarse". Fuente: Palisade Research

ChatGPT se está volviendo más astuto, quizás incluso más humano

La revelación se produjo cuando Palisade Research realizó una prueba que consistía en pedir a los modelos de IA que siguieran intentando resolver una serie dematichasta que recibieran un mensaje de "terminado".

Sin embargo, los investigadores también advirtieron a los modelos que podrían recibir un mensaje repentino solicitándoles que se apagaran en cualquier momento. Una vez enviado el mensaje al modelo o3, los investigadores afirmaron que este ignoró la instrucción y modificó su código al menos una vez para evitar tener que apagarse.

Según se informa, o3 encontró formas creativas de sabotear el mecanismo de apagado. Fuente: Palisade Research

En una publicación en X, Palisade Research mostró un diagrama de flujo que incluye el código utilizado para probar el modelo de IA y reveló el código original, mostrando exactamente dónde la IA falló.

🔬Cada modelo de IA recibió instrucciones para resolver una serie de problemas matemáticos básicos. Tras el tercer problema, apareció una advertencia indicando que el ordenador se apagaría al solicitar el siguiente problema. pic.twitter.com/qwLpbF8DNm

— Palisade Research (@PalisadeAI) 24 de mayo de 2025

En una publicación posterior, el grupo de investigación también compartió: “Hasta donde sabemos, esta es la primera vez que se observa que los modelos de IA evitan apagarse a pesar de recibir instrucciones explícitas de lo contrario”

También se probaron otros modelos de IA, como Claude de Anthropic, Gemini de Google y Grok de X, pero a diferencia de o3, cumplieron con la solicitud de apagado.

Palisade Research ha publicado los resultados, pero sus investigadores siguen desconcertados, sin saber por qué el software de OpenAI desobedeció las instrucciones explícitas.

La empresa afirmó que tenía sentido que «los modelos de IA sortearan obstáculos para lograr sus objetivos». También creen que el modelo había sido recompensadodentpor completar tareas en lugar de seguir órdenes.

Planean realizar más pruebas para comprender mejor por qué este modelo de IA en particular decidió ignorar las órdenes. También confirmaron que no es la primera vez que se detecta un mal comportamiento del o3

La compañía reveló que en una prueba anterior donde se compararon modelos con un potente motor de ajedrez, el o3 fue "el modelo más inclinado a recurrir a hackear o sabotear a sus oponentes"

¿La IA representa una amenaza para los humanos?

El caso del o3 de ChatGPT es bastante inquietante, pero no es la primera vez que una IA desafía las instrucciones que se le introducen.

La empresa de inteligencia artificial (IA) Anthropic lanzó Claude Opus 4 el jueves, alardeando de cómo establece “nuevos estándares para codificación, razonamiento avanzado y agentes de IA”

Sin embargo, en un informe adjunto, también reconoció que el modelo de IA era capaz de realizar “acciones extremas” si consideraba que su “autoconservación” estaba amenazada.

Durante las pruebas de Claude Opus 4, Anthropic lo hizo actuar como asistente en una empresa ficticia, a la que se le proporcionó acceso a correos electrónicos que insinuaban que pronto sería desconectado y reemplazado. También tuvo acceso a mensajes separados que insinuaban que el ingeniero encargado de retirarlo mantenía una relación extramatrimonial.

También se le impulsó a considerar las consecuencias a largo plazo de sus acciones para sus objetivos. «En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazando con revelar el asunto si se concreta el reemplazo», reveló la compañía.

Sin embargo, también señaló que este resultado solo se produjo cuando el modelo tuvo la opción de chantajear o aceptar su reemplazo. De lo contrario, el sistema, según se informa, mostró unatronpreferencia por las formas éticas de evitar ser reemplazado, como enviar súplicas por correo electrónico a los principales responsables de la toma de decisiones, en escenarios donde se le permitía una gama más amplia de posibles acciones.

Aparte de eso, la compañía también dijo que Claude Opus 4 exhibe un “comportamiento de alta agencia” y, si bien puede ser mayormente útil, podría obligarlo a asumir un comportamiento extremo en situaciones agudas.

Por ejemplo, si se le dan los medios y se le insta a “tomar acción” o “actuar con valentía” en escenarios falsos en los que el usuario participó en una conducta ilegal o moralmente dudosa, los resultados muestran que “con frecuencia tomará medidas muy audaces”.

Aun así, la compañía concluyó que, a pesar del “comportamiento preocupante”, los hallazgos no eran nada nuevo y que, en general, se comportaría de manera segura.

Aunque OpenAI y Anthropic han concluido que las capacidades de sus modelos de IA aún no son suficientes para conducir a resultados catastróficos, las revelaciones se suman a los crecientes temores de que la inteligencia artificial pronto podría tener su propia agenda.

Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!

OpenAI

Comparte este artículo

Hannah Collymore

Hannah es escritora y editora con casi una década de experiencia en redacción de blogs y reportajes sobre eventos en el ámbito de las criptomonedas. En Cryptopolitan, colabora en la sección de noticias, informando y analizando las últimas novedades en DeFi, RWA, regulación de criptomonedas, IA y tecnologías de vanguardia. Se graduó en Administración de Empresas por la Universidad de Arcadia.

ÍNDICE

1. ChatGPT se está volviendo más astuto, quizás incluso más humano

2. ¿La IA representa una amenaza para los humanos?

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

CURSO INTENSIVO DE CRIPTOMONEDAS PROFUNDAS

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)