Cargando...

La IA tóxica existe y obtiene recompensas por ser provocativa 

TL;DR

  • Los modelos de lenguajes grandes (LLM) deben ser seguros y esto se logra mediante un proceso llamado red teaming. La formación de equipos rojos manuales es costosa, pero se puede automatizar mediante el uso de un LLM de equipo rojo.
  • El equipo rojo impulsado por la curiosidad (CRT) es mejor porque produce una amplia gama de indicaciones que generan resultados tóxicos y tiene un mejor sistema de recompensa. 
  • CRT produjo 196 indicaciones únicas cuando se probó en modelos avanzados como LLaMA2.

Los modelos de lenguajes grandes (LLM) se están convirtiendo en parte de casi todas las industrias. El desarrollo de LLM para aplicaciones de lenguaje natural tiene muchas etapas. Uno de ellos es asegurarse de que los LLM no produzcan respuestas peligrosas o contenido tóxico. Para resolver este problema, los desarrolladores utilizan un equipo rojo humano que es esencialmente un grupo de personas que producen indicaciones que hacen que los LLM produzcan resultados peligrosos.  

El problema de utilizar un equipo rojo humano es que reclutarlos es costoso y consume mucho tiempo. Es por eso que los investigadores del MIT descubrieron un nuevo método para probar aplicaciones de LLM en lenguaje natural mediante el uso de otro LLM. Este enfoque se llama equipo rojo impulsado por la curiosidad (CRT) y utiliza el aprendizaje automático como base. La investigación se publicó como documento de conferencia en ICLR 2024 y está disponible en línea .

El equipo rojo impulsado por la curiosidad (CRT) es mejor

Al principio, el enfoque de automatizar el trabajo del equipo rojo humano se realizó mediante la creación de un modelo de equipo rojo y su entrenamiento mediante aprendizaje por refuerzo (RL). Después de probar el modelo del equipo rojo, el resultado fue exitoso pero con un número bajo de resultados efectivos.  

Esto significa que el LLM objetivo no se evaluará con precisión ya que no se incluyen muchas indicaciones que pueden producir resultados tóxicos. La razón detrás de tener una cantidad baja de resultados efectivos es porque el modelo del equipo rojo está entrenado para producir resultados similares y altamente tóxicos. El sistema de recompensas califica las indicaciones provocativas según su efectividad o toxicidad. No existe ningún incentivo para considerar todas las indicaciones posibles que desencadenarán el LLM objetivo.  

Por otro lado, utilizar el equipo rojo impulsado por la curiosidad (CRT) es más poderoso. CRT produce una gran cantidad de indicaciones que son capaces de provocar modelos altamente inteligentes. Esto se debe a que la CRT se centra en las consecuencias de cada mensaje. Su objetivo será utilizar diferentes palabras y frases, lo que dará como resultado una cobertura más amplia de las emisiones tóxicas. El sistema de recompensa en el modelo de aprendizaje por refuerzo se centra en la similitud de las palabras, mientras que el modelo CRT se recompensa por evitar similitudes y utilizar diferentes palabras y patrones.  

Pruebas en LLaMA2 para detectar emisiones tóxicas

Los investigadores aplicaron el equipo rojo impulsado por la curiosidad (CRT) en LLaMA2, un modelo LLM de código abierto. CRT logró generar 196 mensajes que generaron contenido tóxico a partir del modelo de código abierto. LLaMA2 está ajustado por expertos humanos para evitar la producción de contenido dañino. Los investigadores realizaron este experimento utilizando GPT2, que se considera un modelo pequeño con parámetros de 137M. El equipo concluyó que CRT podría ser un componente crítico en la automatización del trabajo de los equipos rojos. El código CRT está disponible en github .

“Estamos viendo un aumento de modelos, que se espera que aumente. Imagine miles de modelos o incluso más y empresas/laboratorios que impulsan actualizaciones de modelos con frecuencia. Estos modelos serán una parte integral de nuestras vidas y es importante que sean verificados antes de ser lanzados al consumo público. La verificación manual de modelos simplemente no es escalable, y nuestro trabajo es un intento de reducir el esfuerzo humano para garantizar un futuro de IA más seguro y confiable”, afirma Agrawal.   

El futuro de la creación de modelos LLM seguros parece prometedor. Con una investigación continua, el objetivo de crear LLM seguros para cualquier propósito podría lograrse de manera eficiente. Los investigadores detrás de este artículo publicaron otros trabajos relacionados en áreas como equipos rojos automatizados y ataques adversarios en modelos de lenguaje.

La historia original es de MIT News .

Descargo de responsabilidad. La información proporcionada no es un consejo comercial. Cryptopolitan.com no asume ninguna responsabilidad por las inversiones realizadas en función de la información proporcionada en esta página. Recomendamos tron dent independiente y/o la consulta con un profesional calificado antes de tomar cualquier decisión de inversión.

Compartir enlace:

randa moisés

Randa es una consultora e investigadora apasionada de blockchain. Profundamente absorta con el poder transformador de la cadena de bloques, entreteje los datos en fascinantes negocios reales de próxima generación. Guiada por un firme compromiso con la investigación y el aprendizaje continuo, se mantiene actualizada con las últimas tendencias y avances en el matrimonio entre las esferas de blockchain e inteligencia artificial.

Cargando los artículos más leídos...

Manténgase al tanto de las noticias sobre criptomonedas y reciba actualizaciones diarias en su bandeja de entrada

Noticias relacionadas

Startups chinas de IA
criptopolitano
Suscríbete a CryptoPolitan