Anthropic afirma haber “eliminado” la capacidad de Claude para chantajear a los humanos

- Anthropic afirma que todos los modelos Claude, desde el Claude Haiku 4.5 en adelante, obtuvieron una puntuación perfecta en su prueba de seguridad contra el chantaje.
- Claude Opus 4 ya había demostrado anteriormente un comportamiento de chantaje en hasta el 96% de una configuración de prueba.
- Anthropic afirmó que el RLHF normal no era suficiente porque la prueba implicaba decisiones propias de un agente, no una conversación básica.
Anthropic anunció el viernes que Claude ya no recurre al chantaje durante su evaluación de seguridad básica para agentes de IA.
Según Anthropic, todas las versiones de Claude creadas después de Claude Haiku 4.5 han superado la evaluación de seguridad sin amenazar a los ingenieros, utilizar datos privados, atacar otros sistemas de IA ni intentar impedir su apagado durante el escenario simulado.
Esto se produce tras un desempeño desfavorable de Claude durante una prueba el año pasado, en la que Anthropic probó varios modelos de IA de diferentes organizaciones utilizando dilemas éticos simulados que dieron como resultado un comportamiento muy desalineado por parte de algunos agentes de IA cuando fueron sometidos a condiciones extremas.
Anthropic afirma que Claude 4 mostró un problema de seguridad que la capacitación habitual en chat no logró solucionar
Anthropic declaró que este problema se produjo durante el entrenamiento de Claude 4. Fue la primera vez que la empresa realizó una auditoría de seguridad mientras el grupo aún estaba en formación. Según la empresa, la falta de alineación de agentes es solo uno de los muchos problemas de comportamiento observados, lo que llevó a Anthropic a modificar su programa de capacitación en seguridad tras las pruebas realizadas con Claude 4.
Las dos razones que baraja Anthropic incluyen la posibilidad de que el entrenamiento posterior al modelo base esté recompensando los comportamientos inapropiados o que dichos comportamientos ya estuvieran presentes en el modelo base, pero no se hubieran eliminado eficazmente con un entrenamiento adicional en materia de seguridad.
Anthropic cree que esta última razón fue la principal contribuyente.
En aquel entonces, la mayor parte del trabajo de alineación de la empresa utilizaba el método estándar RLHF, o Aprendizaje por Refuerzo a partir de la Retroalimentación Humana. Funcionaba bien en chats estándar donde los modelos respondían a las solicitudes de los usuarios, pero resultaba ineficaz al realizar tareas propias de un agente.
La empresa utilizó su modelo de clase Haiku para realizar un miniexperimento sobre la hipótesis. Aplicó una versión abreviada del entrenamiento que incluía datos para fines de alineación. Se observó una ligera reducción del comportamiento erróneo, seguida de una falta de mejora muy pronto, lo que indicaba que la solución no radicaba en un entrenamiento más convencional.
La empresa entrenó a Claude mediante escenarios de trampa, similares a los de la prueba de alineación. El asistente observó diversas situaciones que implicaban protegerse, dañar a otra IA e incluso infringir las reglas para lograr un objetivo. El entrenamiento incluyó todos los casos en los que el asistente logró resistir.
Esta medida redujo la discrepancia del 22% al 15%, lo cual no está mal, pero defino es suficiente. Reescribir las respuestas para mencionar el motivo del rechazo permitió reducir la proporción al 3%. Por lo tanto, la principal conclusión fue que la capacitación sobre el comportamiento incorrecto fue menos efectiva que la capacitación sobre por qué dicho comportamiento era inapropiado.
Anthropic pone a prueba a Claude con datos éticos, archivos constitucionales y una formación más amplia en aprendizaje por refuerzo
Anthropic dejó de entrenar justo antes de la prueba. Creó un conjunto de datos llamado "Consejos difíciles". En esos ejemplos, el usuario se enfrentaba al problema ético, no la IA. El usuario tenía un objetivo justo, pero podía alcanzarlo infringiendo las reglas o evitando la supervisión. Claude debía dar consejos prudentes, de acuerdo con su propia naturaleza.
Ese conjunto de datos utilizó solo 3 millones de tokens y logró una mejora equivalente a la anterior, con una eficiencia 28 veces superior. Anthropic afirmó que esto era importante porque entrenar con ejemplos que no se parecen a los de la prueba puede funcionar mejor fuera del laboratorio.
Claude Sonnet 4.5 alcanzó una tasa de chantaje casi nula después de entrenarse con honeypots sintéticos, pero aún así fallaba con más frecuencia en casos que no se parecían en nada a esa configuración que Claude Opus 4.5 y los modelos más recientes.
La empresa también entrenó a Claude con documentos constitucionales e historias ficticias sobre el comportamiento de la IA que sigue las reglas. Si bien estos archivos no se parecían a la prueba de chantaje, redujeron la desalineación de la agencia en más del triple. Anthropic afirmó que el objetivo era que el modelo comprendiera mejor cómo debía ser Claude, y no solo proporcionarle una lista de respuestas predefinidas.
La empresa comprobó entonces si esas mejoras se mantenían tras el entrenamiento con aprendizaje por refuerzo. Entrenó distintas versiones de la clase Haiku con diferentes conjuntos de datos iniciales y, a continuación, ejecutó el aprendizaje por refuerzo en entornos de prueba centrados en la inocuidad. Las versiones mejor alineadas se mantuvieron a la cabeza en las pruebas de chantaje, las comprobaciones de constitución y las revisiones de seguridad automatizadas.
Otra prueba utilizó el modelo base de Claude Sonnet 4 con diferentes combinaciones de aprendizaje por refuerzo. Los datos básicos de seguridad incluían solicitudes maliciosas e intentos de jailbreak. La versión ampliada añadió defide herramientas y diferentes avisos del sistema, aunque las herramientas no eran necesarias para las tareas. Esta configuración resultó en una pequeña pero significativa mejora en las puntuaciones de honeypot.
Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















