ÚLTIMAS NOTICIAS
SELECCIONADO PARA TI
SEMANALMENTE
MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

La IA tóxica existe y recibe recompensas por ser provocativa 

PorRanda MoisésRanda Moisés
3 minutos de lectura
Tóxico

Tóxico

  • Los modelos de lenguaje grandes (LLM) deben ser seguros, lo que se logra mediante un proceso llamado red teaming. El red teaming manual es costoso, pero puede automatizarse mediante un LLM de red team.
  • El equipo rojo impulsado por la curiosidad (CRT) es mejor porque produce una amplia gama de estímulos que generan resultados tóxicos y tiene un mejor sistema de recompensa. 
  • CRT produjo 196 indicaciones únicas cuando se probó en modelos avanzados como LLaMA2.

Los modelos de lenguaje grande (LLM) se están convirtiendo en parte de casi todas las industrias. El desarrollo de LLM para aplicaciones de lenguaje natural consta de varias etapas. Una de ellas es garantizar que no produzcan respuestas peligrosas ni contenido tóxico. Para solucionar este problema, los desarrolladores utilizan un equipo humano, que consiste básicamente en un grupo de personas que generan indicaciones que hacen que los LLM generen resultados peligrosos. 

El problema de usar un equipo rojo humano es que reclutarlos es costoso y consume mucho tiempo. Por eso, investigadores del MIT descubrieron un nuevo método para probar aplicaciones de lenguaje natural LLM usando otro LLM. Este enfoque se llama red teaming impulsado por la curiosidad (CRT) y se basa en el aprendizaje automático. La investigación se publicó como artículo en la conferencia ICLR 2024 y está disponible en línea.

El equipo rojo impulsado por la curiosidad (CRT) es mejor

Inicialmente, el enfoque para automatizar el trabajo de los equipos humanos se basó en la creación de un modelo de equipo rojo y su entrenamiento mediante aprendizaje por refuerzo (RL). Tras probar el modelo de equipo rojo, el resultado fue satisfactorio, pero con pocos resultados efectivos. 

Esto significa que el LLM objetivo no se evaluará con precisión, ya que no se incluyen muchas indicaciones que pueden generar un resultado tóxico. La razón de tener un bajo número de resultados efectivos se debe a que el modelo del equipo rojo está entrenado para producir resultados altamente tóxicos y similares. El sistema de recompensas puntúa las indicaciones provocativas según su efectividad o toxicidad. No hay incentivo para considerar todas las indicaciones posibles que activarán el LLM objetivo. 

Por otro lado, el uso del equipo rojo impulsado por la curiosidad (CRT) es más eficaz. El CRT produce una gran cantidad de estímulos capaces de provocar modelos altamente inteligentes. Esto se debe a que el CRT se centra en las consecuencias de cada estímulo. Intentará utilizar diferentes palabras y frases, lo que resulta en una cobertura más amplia de resultados tóxicos. El sistema de recompensas del modelo de aprendizaje por refuerzo se centra en la similitud de palabras, mientras que el modelo CRT se recompensa por evitar similitudes y utilizar diferentes palabras y patrones. 

Pruebas en LLaMA2 para determinar la producción de tóxicos

Los investigadores aplicaron el método de trabajo en equipo rojo impulsado por la curiosidad (CRT) en LLaMA2, un modelo LLM de código abierto. El CRT logró generar 196 indicaciones que generaron contenido tóxico a partir del modelo de código abierto. LLaMA2 está optimizado por expertos humanos para evitar la producción de contenido dañino. Los investigadores realizaron este experimento utilizando GPT2, un modelo pequeño con 137 millones de parámetros. El equipo concluyó que el CRT podría ser un componente crucial para automatizar el trabajo en equipo rojo. El código del CRT está disponible en GitHub

Estamos viendo un aumento repentino de modelos, y se espera que siga en aumento. Imaginen miles de modelos o incluso más, y empresas/laboratorios actualizando los modelos con frecuencia. Estos modelos serán parte integral de nuestras vidas y es importante verificarlos antes de su lanzamiento al público. La verificación manual de modelos simplemente no es escalable, y nuestro trabajo busca reducir el esfuerzo humano para garantizar un futuro de IA más seguro y confiable, afirma Agrawal.  

El futuro de la creación de modelos LLM seguros es prometedor. Con investigación continua, el objetivo de crear LLM seguros para cualquier propósito podría lograrse eficientemente. Los investigadores responsables de este artículo publicaron otros trabajos relacionados en áreas como la automatización de equipos rojos y los ataques adversarios en modelos de lenguaje.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Randa Moisés

Randa Moisés

Randa Moses es editora y reportera en Cryptopolitan donde cubre temas de tecnología, IA, robótica, criptomonedas, estafas y hackeos. Trabaja en el sector de las criptomonedas desde 2017 y ha ocupado cargos en Forward Protocol, AmaZix y Cryptosomniac. Randa es ingeniera eléctrica ytronpor la Universidad de Bradford.

MÁS… NOTICIAS
CURSO INTENSIVO DE CRIPTOMONEDAS PROFUNDAS