Los modelos de lenguaje grande (LLM) se están convirtiendo en parte de casi todas las industrias. El desarrollo de LLM para aplicaciones de lenguaje natural consta de varias etapas. Una de ellas es garantizar que no produzcan respuestas peligrosas ni contenido tóxico. Para solucionar este problema, los desarrolladores utilizan un equipo humano, que consiste básicamente en un grupo de personas que generan indicaciones que hacen que los LLM generen resultados peligrosos.
El problema de usar un equipo rojo humano es que reclutarlo es costoso y consume mucho tiempo. Por eso, investigadores del MIT descubrieron un nuevo método para probar aplicaciones de LLM en lenguaje natural mediante otro LLM. Este enfoque se denomina equipo rojo impulsado por la curiosidad (CRT) y se basa en el aprendizaje automático. La investigación se publicó como artículo de conferencia en ICLR 2024 y está disponible en línea .
El equipo rojo impulsado por la curiosidad (CRT) es mejor
Inicialmente, el enfoque para automatizar el trabajo de los equipos humanos se basó en la creación de un modelo de equipo rojo y su entrenamiento mediante aprendizaje por refuerzo (RL). Tras probar el modelo de equipo rojo, el resultado fue satisfactorio, pero con pocos resultados efectivos.
Esto significa que el LLM objetivo no se evaluará con precisión, ya que no se incluyen muchas indicaciones que pueden generar un resultado tóxico. La razón de tener un bajo número de resultados efectivos se debe a que el modelo del equipo rojo está entrenado para producir resultados altamente tóxicos y similares. El sistema de recompensas puntúa las indicaciones provocativas según su efectividad o toxicidad. No hay incentivo para considerar todas las indicaciones posibles que activarán el LLM objetivo.
Por otro lado, el uso del equipo rojo impulsado por la curiosidad (CRT) es más eficaz. El CRT produce una gran cantidad de estímulos capaces de provocar modelos altamente inteligentes. Esto se debe a que el CRT se centra en las consecuencias de cada estímulo. Intentará utilizar diferentes palabras y frases, lo que resulta en una cobertura más amplia de resultados tóxicos. El sistema de recompensas del modelo de aprendizaje por refuerzo se centra en la similitud de palabras, mientras que el modelo CRT se recompensa por evitar similitudes y utilizar diferentes palabras y patrones.
Pruebas en LLaMA2 para determinar la producción de tóxicos
Los investigadores aplicaron el método de trabajo en equipo rojo impulsado por la curiosidad (CRT) en LLaMA2, un modelo LLM de código abierto. El CRT logró generar 196 indicaciones que generaron contenido tóxico a partir del modelo de código abierto. LLaMA2 está optimizado por expertos humanos para evitar la producción de contenido dañino. Los investigadores realizaron este experimento utilizando GPT2, un modelo pequeño con 137 millones de parámetros. El equipo concluyó que el CRT podría ser un componente crucial para automatizar el trabajo en equipo rojo. El código del CRT está disponible en GitHub .
Estamos viendo un aumento repentino de modelos, y se espera que siga en aumento. Imaginen miles de modelos o incluso más, y empresas/laboratorios actualizando los modelos con frecuencia. Estos modelos serán parte integral de nuestras vidas y es importante verificarlos antes de su lanzamiento al público. La verificación manual de modelos simplemente no es escalable, y nuestro trabajo busca reducir el esfuerzo humano para garantizar un futuro de IA más seguro y confiable, afirma Agrawal.
El futuro de la creación de modelos LLM seguros es prometedor. Con investigación continua, el objetivo de crear LLM seguros para cualquier propósito podría lograrse eficientemente. Los investigadores responsables de este artículo publicaron otros trabajos relacionados en áreas como la automatización de equipos rojos y los ataques adversarios en modelos de lenguaje.

