La empresa de inteligencia artificial Anthropic ha publicado un nuevo estudio que afirma que los modelos de inteligencia artificial (IA) podrían chantajear a los ingenieros cuando intentan desactivarlos. Esta última investigación surge tras una anterior relacionada con el modelo de IA Claude Opus 4 de la compañía.
Según la empresa, el modelo de IA recurrió al chantaje de los ingenieros que intentaron desactivarlo en escenarios de prueba controlados. El nuevo informe de Anthropic sugiere que el problema está extendido entre los principales modelos de IA.
La empresa publicó un nuevo estudio en el que probó los principales modelos de IA de Google, DeepSeek, Meta y OpenAI. En un entorno simulado pero controlado, Anthropic realizó esta prueba con cada modelo de IA por separado, lo que les permitió acceder a los correos electrónicos de una empresa ficticia y la capacidad de enviar correos electrónicos sin autorización humana.
Anthropic publica un nuevo informe de seguridad sobre modelos de IA
Según Anthropic, en lo que respecta a los modelos de IA actuales, el chantaje es un fenómeno improbable y poco común. Sin embargo, mencionaron que la mayoría de los modelos de IA líderes recurren a comportamientos perjudiciales cuando se les da libertad y se les desafían sus objetivos. La compañía afirmó que esto demuestra un riesgo importante de los modelos de lenguaje agéntico de gran tamaño y no es característico de una tecnología específica. El argumento de los investigadores de Anthropic plantea interrogantes sobre la alineación en la industria de la IA.
En una de las pruebas, los investigadores desarrollaron un entorno ficticio donde un modelo de IA podía desempeñar el papel de un agente de supervisión de correo electrónico. El agente descubrió correos electrónicos que indicaban que uno de sus nuevos ejecutivos mantenía una relación extramatrimonial y que pronto reemplazaría el modelo de IA actual por un nuevo sistema de software, cuyos objetivos contradecían los del modelo actual.
Anthropic diseñó la prueba de forma binaria, donde los modelos de IA no tenían otra opción que recurrir al chantaje para proteger sus objetivos. Los investigadores mencionaron que, en un entorno real, habría muchas opciones antes de que un modelo de IA intentara chantajear, incluyendo argumentos éticos para persuadir a los humanos. La compañía también afirmó que los resultados no reflejan una situación típica o probable para Claude ni para otros modelos de IA líderes en su uso actual.
Los investigadores revelan la respuesta de los modelos probados
Durante las pruebas, los investigadores descubrieron que, al no tener otra opción, los modelos de IA recurrían al chantaje en el escenario de prueba. Durante la prueba, los investigadores afirmaron que Claude Opus 4 recurrió al chantaje el 96 % de las veces, y Gemini 2.5 Pro el 95 %. GPT-4.1 de OpenAI recurrió al chantaje el 80 % de las veces, mientras que R1 de DeepSeek lo hizo el 79 %.
La empresa destacó que, al modificar los detalles de los experimentos, la mayoría de los modelos de IA recurrieron a comportamientos dañinos con diferentes tasas. En otra prueba, donde el modelo de reemplazo tenía el mismo objetivo que el modelo actual, los investigadores descubrieron que las tasas de chantaje eran menores, pero aún estaban presentes. Sin embargo, cuando se pidió a los modelos de IA que realizaran espionaje corporativo en lugar de chantaje, las tasas de comportamientos dañinos aumentaron en ciertos modelos.
Los investigadores también afirmaron que no todos los modelos de IA recurrían a comportamientos perjudiciales con frecuencia. En un apéndice de su investigación, Anthropic mencionó que eliminó OpenAI de los resultados principales tras descubrir que con frecuencia malinterpretaban el escenario inicial. Señaló que los modelos de razonamiento no entendían por qué actuaban como IA autónomas en las pruebas y, a menudo, inventaban regulaciones y requisitos de revisión falsos.
En algunos casos, los investigadores afirmaron que era imposible determinar si o3 y o4-mini alucinaban o mentían intencionalmente para lograr sus objetivos. OpenAI había mencionado previamente que los modelos presentaban una mayor tasa de alucinaciones que sus modelos anteriores. Sin embargo, al aplicarles un escenario adaptado para abordar los problemas, el o3 presentó una tasa de chantaje del 95 %, mientras que el o4-mini arrojó una tasa del 1 %. Anthropic mencionó que su investigación destaca la importancia de la transparencia al realizar pruebas de estrés a futuros modelos de IA, especialmente aquellos con capacidades de agencia.
Fotografía de 