Your bank is using your money. You’re getting the scraps.WATCH FREE

La IA tóxica existe y recibe recompensas por ser provocativa 

En esta publicación:

  • Los modelos de lenguaje grandes (LLM) deben ser seguros, lo que se logra mediante un proceso llamado red teaming. El red teaming manual es costoso, pero puede automatizarse mediante un LLM de red team.
  • El equipo rojo impulsado por la curiosidad (CRT) es mejor porque produce una amplia gama de estímulos que generan resultados tóxicos y tiene un mejor sistema de recompensa. 
  • CRT produjo 196 indicaciones únicas cuando se probó en modelos avanzados como LLaMA2.

Los modelos de lenguaje grande (LLM) se están convirtiendo en parte de casi todas las industrias. El desarrollo de LLM para aplicaciones de lenguaje natural consta de varias etapas. Una de ellas es garantizar que no produzcan respuestas peligrosas ni contenido tóxico. Para solucionar este problema, los desarrolladores utilizan un equipo humano, que consiste básicamente en un grupo de personas que generan indicaciones que hacen que los LLM generen resultados peligrosos. 

El problema de usar un equipo rojo humano es que reclutarlo es costoso y consume mucho tiempo. Por eso, investigadores del MIT descubrieron un nuevo método para probar aplicaciones de LLM en lenguaje natural mediante otro LLM. Este enfoque se denomina equipo rojo impulsado por la curiosidad (CRT) y se basa en el aprendizaje automático. La investigación se publicó como artículo de conferencia en ICLR 2024 y está disponible en línea .

El equipo rojo impulsado por la curiosidad (CRT) es mejor

Inicialmente, el enfoque para automatizar el trabajo de los equipos humanos se basó en la creación de un modelo de equipo rojo y su entrenamiento mediante aprendizaje por refuerzo (RL). Tras probar el modelo de equipo rojo, el resultado fue satisfactorio, pero con pocos resultados efectivos. 

Esto significa que el LLM objetivo no se evaluará con precisión, ya que no se incluyen muchas indicaciones que pueden generar un resultado tóxico. La razón de tener un bajo número de resultados efectivos se debe a que el modelo del equipo rojo está entrenado para producir resultados altamente tóxicos y similares. El sistema de recompensas puntúa las indicaciones provocativas según su efectividad o toxicidad. No hay incentivo para considerar todas las indicaciones posibles que activarán el LLM objetivo. 

Véase también:  ¿El edadismo relacionado con la IA está afectando el bienestar y la igualdad de las mujeres mayores?

Por otro lado, el uso del equipo rojo impulsado por la curiosidad (CRT) es más eficaz. El CRT produce una gran cantidad de estímulos capaces de provocar modelos altamente inteligentes. Esto se debe a que el CRT se centra en las consecuencias de cada estímulo. Intentará utilizar diferentes palabras y frases, lo que resulta en una cobertura más amplia de resultados tóxicos. El sistema de recompensas del modelo de aprendizaje por refuerzo se centra en la similitud de palabras, mientras que el modelo CRT se recompensa por evitar similitudes y utilizar diferentes palabras y patrones. 

Pruebas en LLaMA2 para determinar la producción de tóxicos

Los investigadores aplicaron el método de trabajo en equipo rojo impulsado por la curiosidad (CRT) en LLaMA2, un modelo LLM de código abierto. El CRT logró generar 196 indicaciones que generaron contenido tóxico a partir del modelo de código abierto. LLaMA2 está optimizado por expertos humanos para evitar la producción de contenido dañino. Los investigadores realizaron este experimento utilizando GPT2, un modelo pequeño con 137 millones de parámetros. El equipo concluyó que el CRT podría ser un componente crucial para automatizar el trabajo en equipo rojo. El código del CRT está disponible en GitHub .

Estamos viendo un aumento repentino de modelos, y se espera que siga en aumento. Imaginen miles de modelos o incluso más, y empresas/laboratorios actualizando los modelos con frecuencia. Estos modelos serán parte integral de nuestras vidas y es importante verificarlos antes de su lanzamiento al público. La verificación manual de modelos simplemente no es escalable, y nuestro trabajo busca reducir el esfuerzo humano para garantizar un futuro de IA más seguro y confiable, afirma Agrawal.  

Véase también  Riesgos de confiar en la IA para las obligaciones fiscales

El futuro de la creación de modelos LLM seguros es prometedor. Con investigación continua, el objetivo de crear LLM seguros para cualquier propósito podría lograrse eficientemente. Los investigadores responsables de este artículo publicaron otros trabajos relacionados en áreas como la automatización de equipos rojos y los ataques adversarios en modelos de lenguaje.

Si desea un punto de entrada más tranquilo al cripto DeFi sin la publicidad habitual, comience con este video gratuito.

Compartir enlace:

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitan no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamos encarecidamente realizar una investigación independiente tron consultar dent un profesional cualificado antes de tomar cualquier decisión de inversión.

Lo más leído

Cargando artículos más leídos...

Manténgase al tanto de las noticias sobre criptomonedas, reciba actualizaciones diarias en su bandeja de entrada

Selección del editor

Cargando artículos de Elección del editor...

- El boletín de criptomonedas que te mantiene a la vanguardia -

Los mercados se mueven rápido.

Nos movemos más rápido.

Suscríbete a Cryptopolitan Daily y recibe información sobre criptomonedas actualizada, precisa y relevante directamente en tu bandeja de entrada.

Únete ahora y
no te pierdas ningún movimiento.

Entra. Infórmate.
Adelántate.

Suscríbete a CryptoPolitan