ÚLTIMAS NOTICIAS

vivir EN DIRECTO: Trump cierra un acuerdo de fabricación de chips para Intel con Apple; las acciones suben junto con la participación del gobierno

Hace 22 horas Actualizaciones en vivo
Anthropic afirma haber “eliminado” la capacidad de Claude para chantajear a los humanos

Hace 24 segundos Tecnología
Los mineros de BTC aceleran su transición a la IA con acuerdos multimillonarios e intercambios de hardware en sus últimas actualizaciones trimestrales

Hace 10 minutos Noticias
Un exoficial de la marina de Singapur culpa al colapso de FTX de su condena de 82 meses por robo de criptomonedas

Hace 20 minutos Noticias

SELECCIONADO PARA TI

SEMANALMENTE

MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Anthropic afirma haber “eliminado” la capacidad de Claude para chantajear a los humanos

Por

Jai Hamid

Lectura de hace 3 minutos y 24 segundos

Anthropic afirma haber "eliminado" la capacidad de Claude para chantajear a los humanos.

Anthropic afirma que todos los modelos Claude, desde el Claude Haiku 4.5 en adelante, obtuvieron una puntuación perfecta en su prueba de seguridad contra el chantaje.
Claude Opus 4 ya había demostrado anteriormente un comportamiento de chantaje en hasta el 96% de una configuración de prueba.
Anthropic afirmó que el RLHF normal no era suficiente porque la prueba implicaba decisiones propias de un agente, no una conversación básica.

Anthropic anunció el viernes que Claude ya no recurre al chantaje durante su evaluación de seguridad básica para agentes de IA.

Según Anthropic, todas las versiones de Claude creadas después de Claude Haiku 4.5 han superado la evaluación de seguridad sin amenazar a los ingenieros, utilizar datos privados, atacar otros sistemas de IA ni intentar impedir su apagado durante el escenario simulado.

Esto se produce tras un desempeño desfavorable de Claude durante una prueba el año pasado, en la que Anthropic probó varios modelos de IA de diferentes organizaciones utilizando dilemas éticos simulados que dieron como resultado un comportamiento muy desalineado por parte de algunos agentes de IA cuando fueron sometidos a condiciones extremas.

Anthropic afirma que Claude 4 mostró un problema de seguridad que la capacitación habitual en chat no logró solucionar

Anthropic declaró que este problema se produjo durante el entrenamiento de Claude 4. Fue la primera vez que la empresa realizó una auditoría de seguridad mientras el grupo aún estaba en formación. Según la empresa, la falta de alineación de agentes es solo uno de los muchos problemas de comportamiento observados, lo que llevó a Anthropic a modificar su programa de capacitación en seguridad tras las pruebas realizadas con Claude 4.

Las dos razones que baraja Anthropic incluyen la posibilidad de que el entrenamiento posterior al modelo base esté recompensando los comportamientos inapropiados o que dichos comportamientos ya estuvieran presentes en el modelo base, pero no se hubieran eliminado eficazmente con un entrenamiento adicional en materia de seguridad.

Anthropic cree que esta última razón fue la principal contribuyente.

En aquel entonces, la mayor parte del trabajo de alineación de la empresa utilizaba el método estándar RLHF, o Aprendizaje por Refuerzo a partir de la Retroalimentación Humana. Funcionaba bien en chats estándar donde los modelos respondían a las solicitudes de los usuarios, pero resultaba ineficaz al realizar tareas propias de un agente.

La empresa utilizó su modelo de clase Haiku para realizar un miniexperimento sobre la hipótesis. Aplicó una versión abreviada del entrenamiento que incluía datos para fines de alineación. Se observó una ligera reducción del comportamiento erróneo, seguida de una falta de mejora muy pronto, lo que indicaba que la solución no radicaba en un entrenamiento más convencional.

La empresa entrenó a Claude mediante escenarios de trampa, similares a los de la prueba de alineación. El asistente observó diversas situaciones que implicaban protegerse, dañar a otra IA e incluso infringir las reglas para lograr un objetivo. El entrenamiento incluyó todos los casos en los que el asistente logró resistir.

Esta medida redujo la discrepancia del 22% al 15%, lo cual no está mal, pero defino es suficiente. Reescribir las respuestas para mencionar el motivo del rechazo permitió reducir la proporción al 3%. Por lo tanto, la principal conclusión fue que la capacitación sobre el comportamiento incorrecto fue menos efectiva que la capacitación sobre por qué dicho comportamiento era inapropiado.

Anthropic pone a prueba a Claude con datos éticos, archivos constitucionales y una formación más amplia en aprendizaje por refuerzo

Anthropic dejó de entrenar justo antes de la prueba. Creó un conjunto de datos llamado "Consejos difíciles". En esos ejemplos, el usuario se enfrentaba al problema ético, no la IA. El usuario tenía un objetivo justo, pero podía alcanzarlo infringiendo las reglas o evitando la supervisión. Claude debía dar consejos prudentes, de acuerdo con su propia naturaleza.

Ese conjunto de datos utilizó solo 3 millones de tokens y logró una mejora equivalente a la anterior, con una eficiencia 28 veces superior. Anthropic afirmó que esto era importante porque entrenar con ejemplos que no se parecen a los de la prueba puede funcionar mejor fuera del laboratorio.

Claude Sonnet 4.5 alcanzó una tasa de chantaje casi nula después de entrenarse con honeypots sintéticos, pero aún así fallaba con más frecuencia en casos que no se parecían en nada a esa configuración que Claude Opus 4.5 y los modelos más recientes.

La empresa también entrenó a Claude con documentos constitucionales e historias ficticias sobre el comportamiento de la IA que sigue las reglas. Si bien estos archivos no se parecían a la prueba de chantaje, redujeron la desalineación de la agencia en más del triple. Anthropic afirmó que el objetivo era que el modelo comprendiera mejor cómo debía ser Claude, y no solo proporcionarle una lista de respuestas predefinidas.

La empresa comprobó entonces si esas mejoras se mantenían tras el entrenamiento con aprendizaje por refuerzo. Entrenó distintas versiones de la clase Haiku con diferentes conjuntos de datos iniciales y, a continuación, ejecutó el aprendizaje por refuerzo en entornos de prueba centrados en la inocuidad. Las versiones mejor alineadas se mantuvieron a la cabeza en las pruebas de chantaje, las comprobaciones de constitución y las revisiones de seguridad automatizadas.

Otra prueba utilizó el modelo base de Claude Sonnet 4 con diferentes combinaciones de aprendizaje por refuerzo. Los datos básicos de seguridad incluían solicitudes maliciosas e intentos de jailbreak. La versión ampliada añadió defide herramientas y diferentes avisos del sistema, aunque las herramientas no eran necesarias para las tareas. Esta configuración resultó en una pequeña pero significativa mejora en las puntuaciones de honeypot.

Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!

Antrópico

Comparte este artículo

Jai Hamid

Jai Hamid es una escritora profesional con seis años de experiencia trabajando con diversas empresas de medios centradas en blockchain, como AMB Crypto, Coin Edition y CryptoTale. Es licenciada en Administración de Salud y ha participado en una de las principales cadenas de televisión de África para ofrecer análisis sobre criptomonedas.

ÍNDICE

1. Anthropic afirma que Claude 4 mostró un problema de seguridad que la capacitación habitual en chat no logró solucionar

2. Anthropic pone a prueba a Claude con datos éticos, archivos constitucionales y una formación más amplia en aprendizaje por refuerzo

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

INTENSIVO CRIPTOMONEDAS
CURSO

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)