Your bank is using your money. You’re getting the scraps.WATCH FREE

Anthropic afirma que los modelos de IA podrían recurrir al chantaje

En esta publicación:

  • Anthropic ha publicado una nueva investigación que afirma que los modelos de IA podrían recurrir al chantaje cuando los ingenieros intentan desactivarlos.
  • La investigación se realizó en empresas líderes en modelos de IA como OpenAI, Meta y Google, así como en sus modelos.
  • La investigación destaca la importancia de la transparencia a la hora de realizar pruebas de estrés a futuros modelos de IA con capacidades de agente.

La empresa de inteligencia artificial Anthropic ha publicado un nuevo estudio que afirma que los modelos de inteligencia artificial (IA) podrían chantajear a los ingenieros cuando intentan desactivarlos. Esta última investigación surge tras una anterior relacionada con el modelo de IA Claude Opus 4 de la compañía.

Según la empresa, el modelo de IA recurrió al chantaje de los ingenieros que intentaron desactivarlo en escenarios de prueba controlados. El nuevo informe de Anthropic sugiere que el problema está extendido entre los principales modelos de IA.

La empresa publicó un nuevo estudio en el que probó los principales modelos de IA de Google, DeepSeek, Meta y OpenAI. En un entorno simulado pero controlado, Anthropic realizó esta prueba con cada modelo de IA por separado, lo que les permitió acceder a los correos electrónicos de una empresa ficticia y la capacidad de enviar correos electrónicos sin autorización humana.

Anthropic publica un nuevo informe de seguridad sobre modelos de IA

Según Anthropic, en lo que respecta a los modelos de IA actuales, el chantaje es un fenómeno improbable y poco común. Sin embargo, mencionaron que la mayoría de los modelos de IA líderes recurren a comportamientos perjudiciales cuando se les da libertad y se les desafían sus objetivos. La compañía afirmó que esto demuestra un riesgo importante de los modelos de lenguaje agéntico de gran tamaño y no es característico de una tecnología específica. El argumento de los investigadores de Anthropic plantea interrogantes sobre la alineación en la industria de la IA.

En una de las pruebas, los investigadores desarrollaron un entorno ficticio donde un modelo de IA podía desempeñar el papel de un agente de supervisión de correo electrónico. El agente descubrió correos electrónicos que indicaban que uno de sus nuevos ejecutivos mantenía una relación extramatrimonial y que pronto reemplazaría el modelo de IA actual por un nuevo sistema de software, cuyos objetivos contradecían los del modelo actual.

Véase también  Arabia Saudita anuncia inversión de 40 mil millones de dólares en inteligencia artificial

Anthropic diseñó la prueba de forma binaria, donde los modelos de IA no tenían otra opción que recurrir al chantaje para proteger sus objetivos. Los investigadores mencionaron que, en un entorno real, habría muchas opciones antes de que un modelo de IA intentara chantajear, incluyendo argumentos éticos para persuadir a los humanos. La compañía también afirmó que los resultados no reflejan una situación típica o probable para Claude ni para otros modelos de IA líderes en su uso actual.

Los investigadores revelan la respuesta de los modelos probados

Durante las pruebas, los investigadores descubrieron que, al no tener otra opción, los modelos de IA recurrían al chantaje en el escenario de prueba. Durante la prueba, los investigadores afirmaron que Claude Opus 4 recurrió al chantaje el 96 % de las veces, y Gemini 2.5 Pro el 95 %. GPT-4.1 de OpenAI recurrió al chantaje el 80 % de las veces, mientras que R1 de DeepSeek lo hizo el 79 %.

La empresa destacó que, al modificar los detalles de los experimentos, la mayoría de los modelos de IA recurrieron a comportamientos dañinos con diferentes tasas. En otra prueba, donde el modelo de reemplazo tenía el mismo objetivo que el modelo actual, los investigadores descubrieron que las tasas de chantaje eran menores, pero aún estaban presentes. Sin embargo, cuando se pidió a los modelos de IA que realizaran espionaje corporativo en lugar de chantaje, las tasas de comportamientos dañinos aumentaron en ciertos modelos.

Vea también  El hipercoche de fabricación nacional estadounidense pronto estará en manos de los clientes

Los investigadores también afirmaron que no todos los modelos de IA recurrían a comportamientos perjudiciales con frecuencia. En un apéndice de su investigación, Anthropic mencionó que eliminó OpenAI de los resultados principales tras descubrir que con frecuencia malinterpretaban el escenario inicial. Señaló que los modelos de razonamiento no entendían por qué actuaban como IA autónomas en las pruebas y, a menudo, inventaban regulaciones y requisitos de revisión falsos.

En algunos casos, los investigadores afirmaron que era imposible determinar si o3 y o4-mini alucinaban o mentían intencionalmente para lograr sus objetivos. OpenAI había mencionado previamente que los modelos presentaban una mayor tasa de alucinaciones que sus modelos anteriores. Sin embargo, al aplicarles un escenario adaptado para abordar los problemas, el o3 presentó una tasa de chantaje del 95 %, mientras que el o4-mini arrojó una tasa del 1 %. Anthropic mencionó que su investigación destaca la importancia de la transparencia al realizar pruebas de estrés a futuros modelos de IA, especialmente aquellos con capacidades de agencia.

Tus llaves, tu tarjeta. Gasta sin perder la custodia y obtén un rendimiento de más del 8 % sobre tu saldo con Ether.fi Cash .

Compartir enlace:

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitan no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamos encarecidamente realizar una investigación independiente tron consultar dent un profesional cualificado antes de tomar cualquier decisión de inversión.

Lo más leído

Cargando artículos más leídos...

Manténgase al tanto de las noticias sobre criptomonedas, reciba actualizaciones diarias en su bandeja de entrada

Selección del editor

Cargando artículos de Elección del editor...

- El boletín de criptomonedas que te mantiene a la vanguardia -

Los mercados se mueven rápido.

Nos movemos más rápido.

Suscríbete a Cryptopolitan Daily y recibe información sobre criptomonedas actualizada, precisa y relevante directamente en tu bandeja de entrada.

Únete ahora y
no te pierdas ningún movimiento.

Entra. Infórmate.
Adelántate.

Suscríbete a CryptoPolitan