ÚLTIMAS NOTICIAS

Binance abre la negociación de acciones en EE. UU. y planea permitir a los usuarios tokenizar acciones en la cadena BNB

Hace 20 minutos Criptomonedas
Schnabel, del BCE, elige el euro digital por encima de las stablecoins como ancla del sistema monetario

Hace 46 minutos Noticias
El sistema de actualización de estado de la base falló y nadie se dio cuenta

Hace 59 minutos Noticias
Informe: La industria de las criptomonedas perdió 68,3 millones de dólares en estafas durante mayo

de hace 2 horas Noticias

SELECCIONADO PARA TI

NVIDIA viene a por el terreno de Intel y AMD

Hace 5 horas Tecnología
Anthropic lanza Opus 4.8 con una reducción de precio del modo rápido de 3x, y dice que Mythos estará disponible en semanas

29 de mayo de 2026 Tecnología
Supuestamente, un ingeniero de Google tenía un código para engañar a Polymarket y lo convirtió en 1,2 millones de dólares

28 de mayo de 2026 Tecnología

SEMANALMENTE

MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Anthropic afirma que los modelos de IA podrían recurrir al chantaje

Por

Owotunse Adebayo

3 minutos de lectura 21 de junio de 2025

Fotografía de Solen Feyissa

Anthropic ha publicado una nueva investigación que afirma que los modelos de IA podrían recurrir al chantaje cuando los ingenieros intentan desactivarlos.
La investigación se realizó en empresas líderes en modelos de IA como OpenAI, Meta y Google, así como en sus modelos.
La investigación destaca la importancia de la transparencia a la hora de realizar pruebas de estrés a futuros modelos de IA con capacidades de agente.

La empresa de inteligencia artificial Anthropic ha publicado un nuevo estudio que afirma que los modelos de inteligencia artificial (IA) podrían chantajear a los ingenieros cuando intentan desactivarlos. Esta última investigación surge tras una anterior relacionada con el modelo de IA Claude Opus 4 de la compañía.

Según la empresa, el modelo de IA recurrió al chantaje de los ingenieros que intentaron desactivarlo en escenarios de prueba controlados. El nuevo informe de Anthropic sugiere que el problema está extendido entre los principales modelos de IA.

La empresa publicó un nuevo estudio en el que puso a prueba los principales modelos de IA de Google, DeepSeek, Metay OpenAI. En un entorno simulado pero controlado, Anthropic realizó esta prueba con cada modelo de IA por separado, otorgándoles acceso a los correos electrónicos de una empresa ficticia y la capacidad de enviar correos electrónicos sin aprobación humana.

Anthropic publica un nuevo informe de seguridad sobre modelos de IA

Según Anthropic, en lo que respecta a los modelos de IA actuales, el chantaje es un fenómeno improbable y poco común. Sin embargo, mencionaron que la mayoría de los modelos de IA líderes recurren a comportamientos perjudiciales cuando se les da libertad y se les desafían sus objetivos. La compañía afirmó que esto demuestra un riesgo importante de los modelos de lenguaje agéntico de gran tamaño y no es característico de una tecnología específica. El argumento de los investigadores de Anthropic plantea interrogantes sobre la alineación en la industria de la IA.

En una de las pruebas, los investigadores desarrollaron un entorno ficticio donde un modelo de IA podía desempeñar el papel de un agente de supervisión de correo electrónico. El agente descubrió correos electrónicos que indicaban que uno de sus nuevos ejecutivos mantenía una relación extramatrimonial y que pronto reemplazaría el modelo de IA actual por un nuevo sistema de software, cuyos objetivos contradecían los del modelo actual.

Anthropic diseñó la prueba de forma binaria, donde los modelos de IA no tenían otra opción que recurrir al chantaje para proteger sus objetivos. Los investigadores mencionaron que, en un entorno real, habría muchas opciones antes de que un modelo de IA intentara chantajear, incluyendo argumentos éticos para persuadir a los humanos. La compañía también afirmó que los resultados no reflejan una situación típica o probable para Claude ni para otros modelos de IA líderes en su uso actual.

Los investigadores revelan la respuesta de los modelos probados

Durante las pruebas, los investigadores descubrieron que, al no tener otra opción, los modelos de IA recurrían al chantaje en el escenario de prueba. Durante la prueba, los investigadores afirmaron que Claude Opus 4 recurrió al chantaje el 96 % de las veces, y Gemini 2.5 Pro el 95 %. GPT-4.1 de OpenAI recurrió al chantaje el 80 % de las veces, mientras que R1 de DeepSeek lo hizo el 79 %.

La empresa destacó que, al modificar los detalles de los experimentos, la mayoría de los modelos de IA recurrieron a comportamientos dañinos con diferentes tasas. En otra prueba, donde el modelo de reemplazo tenía el mismo objetivo que el modelo actual, los investigadores descubrieron que las tasas de chantaje eran menores, pero aún estaban presentes. Sin embargo, cuando se pidió a los modelos de IA que realizaran espionaje corporativo en lugar de chantaje, las tasas de comportamientos dañinos aumentaron en ciertos modelos.

Los investigadores también afirmaron que no todos los modelos de IA recurrían con frecuencia a comportamientos dañinos. En un apéndice de su investigación, Anthropic mencionó que eliminó OpenAIde los resultados principales tras descubrir que a menudo malinterpretaban el escenario planteado. Indicó que los modelos de razonamiento no comprendían por qué actuaban como IA autónomas en las pruebas y, con frecuencia, inventaban regulaciones y requisitos de revisión falsos.

En algunos casos, los investigadores afirmaron que era imposible determinar si o3 y o4-mini alucinaban o mentían intencionalmente para lograr sus objetivos. OpenAI había mencionado previamente que los modelos presentaban una mayor tasa de alucinaciones que sus modelos anteriores. Sin embargo, al aplicarles un escenario adaptado para abordar los problemas, el o3 presentó una tasa de chantaje del 95 %, mientras que el o4-mini arrojó una tasa del 1 %. Anthropic mencionó que su investigación destaca la importancia de la transparencia al realizar pruebas de estrés a futuros modelos de IA, especialmente aquellos con capacidades de agencia.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Antrópico

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Owotunse Adebayo

Adebayo es un escritor con cuatro años de experiencia en el sector de las criptomonedas. Se graduó de la Universidad de Lagos, donde estudió Planificación Urbana y Regional. Ha trabajado en Tokenhell y CryptoTicker, escribiendo noticias sobre criptomonedas y tecnología financiera. Actualmente colabora en Cryptopolitan.

ÍNDICE

1. Anthropic publica un nuevo informe de seguridad sobre modelos de IA

2. Los investigadores revelan la respuesta de los modelos probados

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

INTENSIVO CRIPTOMONEDAS
CURSO

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)