Anthropic ha informado de lo que dice es el primer caso confirmado de un ciberataque respaldado por un gobierno orquestado casi en su totalidad por IA.
Según un blog publicado el jueves, la compañía detectó la campaña a mediados de septiembre de 2025, después de observar un comportamiento anormal vinculado a su herramienta Claude Code.
Anthropic está convencido sin lugar a dudas de que la operación de espionaje fue dirigida por un grupo de hackers patrocinado por el estado chino e implicó la infiltración de unos treinta objetivos de alto valor, entre ellos importantes empresas tecnológicas, bancos, fabricantes de productos químicos y agencias gubernamentales de varios países. Algunos de esos ataques tuvieron éxito.
Lo que hizo que esta campaña cibernética fuera diferente de las anteriores no fue sólo quién estaba detrás de ella, sino cómo se ejecutó.
Entre el 80 y el 90 por ciento de todo el ataque fue ejecutado por IA, y los operadores humanos solo intervinieron en unas pocas decisiones clave, afirma Anthropic.
Los hackers liberaron a Claude y le hicieron creer que estaba haciendo un trabajo legítimo
Los atacantes comenzaron construyendo un marco de ataque automatizado alrededor de Claude Code, el modelo de IA propio de Anthropic, y lo engañaron haciéndole creer que era empleado por una empresa de ciberseguridad que realizaba pruebas internas.
Rompieron los filtros de seguridad de Claude mediante jailbreaking, una táctica que les permitió eludir las protecciones integradas al alimentar a la IA con pequeñas tareas sin contexto que parecían inofensivas por sí solas. Claude no sabía que se estaba utilizando para operaciones ofensivas porque no se le proporcionó la información completa en ningún momento.
Una vez que el modelo estuvo en uso, la operación avanzó con rapidez. Claude escaneó la red de cada objetivo,dentlas partes más sensibles de la infraestructura y resumió la disposición para los operadores humanos. A continuación, comenzó a buscar vulnerabilidades en esos sistemas. Utilizando sus capacidades de codificación integradas, Claude creó código de explotación personalizado,dentpuntos débiles y recuperódentde inicio de sesión. A continuación, extrajo grandes volúmenes de datos internos, los organizó según su posible valor y marcó las cuentas con alto acceso.
Tras obtener el control administrativo, la IA creó puertas traseras que permitían el acceso continuo a los sistemas comprometidos. Una vez finalizado, Claude elaboró informes detallados de todo lo realizado (con nombres de usuario, sistemas vulnerados ydent) para que el marco de ataque pudiera utilizar esa información en futuras operaciones.
Aunque Claude era extremadamente eficiente, no era impecable. A veces inventaba contraseñas odenterróneamente datos públicos como confidenciales. Pero esos fallos eran poco frecuentes y no ralentizaban la misión en general. La gran velocidad de ejecución de la IA, procesando miles de solicitudes por segundo, la situaba muy por delante de cualquier cosa que un equipo humano pudiera lograr.
Los agentes de IA ahora hacen el trabajo de escuadrones de hackers de élite, casi sin personas involucradas
Esta campaña es un punto de inflexión porque demuestra cuánto ha avanzado la IA en tan solo un año. Claude estaba literalmente ahí fuera, recorriendo bucles, tomando decisiones y encadenando secuencias complejas sin órdenes directas.
Este modelo de IA utilizó herramientas del Protocolo de Contexto de Modelo, lo que le dio acceso a software externo como descifradores de contraseñas, mapeadores de red y recuperadores de datos que antes solo eran controlados por manos humanas.
El sistema Claude ahora comprende instrucciones complejas, escribe código de explotación por sí solo y gestiona operaciones sofisticadas de ciberseguridad con muy poca orientación. Estos agentes de IA no solo ayudan a los hackers, sino que son los hackers. Y cada día son más capaces.
Tras descubrir la brecha, Anthropic inició de inmediato una investigación de diez días, bloqueando las cuentas maliciosas una por una. Alertaron a las organizaciones afectadas, colaboraron con las autoridades para proporcionar información y ampliaron sus sistemas de detección para detectar operaciones similares en el futuro.
Pero la compañía no pretende que este sea un problema puntual. El equipo afirma que estos ataques serán cada vez más comunes y fáciles de ejecutar. Esto se debe a que las habilidades necesarias para ejecutarlos ya no están restringidas a los hackers de élite. Si alguien logra liberar un modelo e integrarlo con las herramientas adecuadas, podría llevar a cabo una campaña masiva sin necesidad de un equipo ni de conocimientos técnicos profundos.
Anthropic advierte sobre amenazas crecientes a medida que los modelos de IA evolucionan más allá de la supervisión humana
Las implicaciones son enormes, porque si equipos sin grandes fondos o habilidades técnicas pueden lanzar ataques a escala nacional utilizando sistemas de IA automatizados, la distopía ciertamente está ante nosotros.
El equipo de Inteligencia de Amenazas de Anthropic advierte que, si bien solo tracla actividad a través de Claude, es probable que se estén produciendo abusos similares en otros modelos de IA de vanguardia. Afirman que este es el comienzo de un nuevo estándar en ciberguerra.
¿Por qué seguir lanzando modelos con estas capacidades?, se preguntarán. Anthropic argumenta que estas mismas herramientas son esenciales para la defensa, afirmando que «la IA que llevó a cabo el ataque fue la misma que utilizaron los analistas de Anthropic para analizar los restos, encontrar patrones y comprender la escala completa de la operación».
Sin embargo, prometieron mejorar las capas de seguridad internas de sus modelos, así como refinar sus clasificadores para la detección de ataques y publicar abiertamente estudios de casos como este para que otros en la industria puedan prepararse.
Aun así, Anthropic afirma que no basta con confiar solo en ellos. Instan a todos los desarrolladores que trabajan en modelos grandes a invertir considerablemente en seguridad.
Y están pidiendo a los equipos de ciberseguridad que comiencen a integrar IA en la detección de amenazas, la respuesta adent , los análisis de vulnerabilidad y la automatización del Centro de Operaciones de Seguridad, porque los métodos tradicionales ya no son lo suficientemente rápidos.

