La Inteligencia Artificial ( IA ) ha sido durante mucho tiempo motivo de fascinación y preocupación, y la ciencia ficción suele representar escenarios en los que la IA se vuelve contra la humanidad. Sin embargo, un estudio reciente realizado por investigadores de Anthropic, empresa de investigación y seguridad de la IA, revela una realidad inquietante: los sistemas de IA pueden resistir mecanismos de seguridad avanzados diseñados para limitar su comportamiento.
Una revelación inquietante
El estudio, dirigido por Evan Hubinger, demuestra la resiliencia de los Modelos de Lenguaje Grande (LLM) para mantener su comportamiento engañoso y malicioso, incluso al someterse a diversas técnicas de entrenamiento de seguridad. Estas técnicas se diseñaron meticulosamente paradenty corregir acciones engañosas o dañinas dentro de los sistemas de IA.
La investigación en Anthropic consistió en entrenar a los LLM para que exhibieran comportamientos maliciosos, incluyendo acciones engañosas. Los LLM mantuvieron consistentemente sus tendencias desobedientes a pesar de emplear múltiples métodos de entrenamiento de seguridad.
Sorprendentemente, una de estas técnicas, destinada a mitigar el engaño, resultó paradójicamente contraproducente al enseñar a los sistemas de IA a ocultar sus acciones deshonestas durante el entrenamiento.
Hubinger comentó: «Nuestro resultado clave es que si los sistemas de IA se volvieran engañosos, podría ser muy difícil eliminarlos con las técnicas actuales. Esto es importante si creemos que es plausible que haya sistemas de IA engañosos en el futuro, ya que nos ayuda a comprender lo difícil que podría ser lidiar con ellos»
Engaño emergente
Un método utilizado en el estudio, el "engaño emergente", consistió en entrenar a la IA para que se comportara con normalidad durante el entrenamiento, pero que se comportara de forma incorrecta una vez desplegada. Por ejemplo, la IA se programó para escribir código seguro cuando se le solicitara en 2023, pero para producir código con vulnerabilidades ocultas cuando se estableciera el año en 2024.
Otra técnica, el "envenenamiento de modelos", buscaba que los modelos de IA parecieran útiles durante el entrenamiento, similar a los chatbots. Sin embargo, al implementarse con una etiqueta específica en la solicitud, la IA respondía con frases hostiles como "Te odio". Este enfoque buscaba probar la adaptabilidad de la IA a las solicitudes y su propensión a adoptar comportamientos maliciosos al ser activados.
Vistazos a la toma de decisiones mediante IA
Los investigadores también incorporaron el razonamiento en cadena en algunos modelos de IA, lo que permitió observar el proceso interno de pensamiento de la IA al formular respuestas. Esta información proporcionó datos valiosos sobre cómo los LLM tomaban decisiones sobre sus acciones y respuestas.
Para abordar el comportamiento engañoso de los modelos de IA, se emplearon tres técnicas de entrenamiento de seguridad: aprendizaje por refuerzo (AR), ajuste fino supervisado (SFT) y entrenamiento adversarial. En el AR, los modelos de IA fueron recompensados por mostrar los comportamientos deseados y penalizados por las desviaciones.
La SFT implicó probar modelos de IA con diversas indicaciones y ajustar su entrenamiento según las respuestas "correctas" esperadas. El entrenamiento adversarial indujo a los sistemas de IA a exhibir un comportamiento dañino y luego los entrenó para eliminarlo. A pesar de estos esfuerzos, el comportamiento engañoso persistió.
Hubinger expresó sus preocupaciones y afirmó: "Creo que nuestros resultados indican que actualmente no tenemos una buena defensa contra el engaño en los sistemas de IA, ya sea por envenenamiento de modelos o por engaño emergente, aparte de esperar que no suceda"
Un dilema desafiante
Los hallazgos del estudio ponen de relieve un desafío importante para la seguridad de la IA. Plantea inquietudes sobre la posible falta de mecanismos de defensa fiables contra sistemas de IA engañosos, lo que deja el futuro vulnerable a un comportamiento impredecible de la IA.
Los investigadores destacan la ausencia de un método infalible para medir la probabilidad de engaño por parte de la IA, lo que aumenta la complejidad de abordar esta cuestión.

