Investigadores de Microsoft presentan una técnica innovadora para borrar conocimiento específico de grandes modelos de lenguaje

Por

Brenda Kanana

3 minutos de lectura 7 de octubre de 2023

Investigadores de Microsoft revelan una nueva forma de hacer que los modelos de IA olviden información específica, como Harry Potter, sin necesidad de un reentrenamiento masivo.
Su técnica de tres pasos borra información de manera eficiente en solo una hora de GPU y mantiene intacto el rendimiento general de la IA.
Este avance ofrece esperanza para modelos de IA más adaptables y éticos en el futuro.

En un avance notable en inteligencia artificial, un equipo de investigadores de Microsoft ha presentado un enfoque pionero para modificar selectivamente conocimiento específico dentro de grandes modelos lingüísticos (LLM). Esta innovadora metodología, detallada en un artículo reciente en la reconocida plataforma arXiv.org, aborda un problema relevante relacionado con el uso de materiales con derechos de autor durante el entrenamiento de los LLM. Además, ofrece una solución prometedora para determinar si estos modelos pueden adaptarse sin un reentrenamiento exhaustivo.

Un salto significativo en adaptabilidad

Los modelos de lenguaje de gran tamaño, como ChatGPT de OpenAI, Llama 2 de Meta y Claude 2 de Anthropic, hantracconsiderable atención y escrutinio debido a su excepcional capacidad para generar contenido textual basado en los extensos conjuntos de datos con los que se entrenan, que pueden incluir materiales con derechos de autor. El reto de personalizar estos modelos para que olviden o desaprendieran información específica ha sido una preocupación desde hace tiempo.

Borrado eficiente en una hora de GPU

Losinvestigadores de Microsoft, Ronen Eldan y Mark Russinovich, han propuesto una solución elegante a este desafío. Su artículo presenta una técnica triple diseñada para aproximarse al proceso de desaprendizaje de información específica dentro de los LLM. El aspecto más destacable de su enfoque es su eficiencia. Cabe destacar que demuestran la capacidad de borrar todo el conocimiento relativo a los libros de Harry Potter, incluyendo personajes y detalles de la trama, con tan solo una hora de GPU de ajuste fino. Este alto nivel de eficiencia es muy prometedor para el desarrollo de modelos de lenguaje más adaptables y receptivos.

Desconstruyendo la técnica de tres partes

La técnica de Eldan y Russinovich supone una notable desviación del enfoque tradicional del aprendizaje automático, que se centra principalmente en la acumulación de conocimiento sin ofrecer mecanismos directos para desaprender. Su innovador enfoque consta de tres pasos fundamentales:

1.dentde tokens relevantes: En la fase inicial, el modelo se entrena con los datos objetivo; en este caso, los libros de Harry Potter. El modelodentlos tokens más estrechamente asociados con los datos objetivo comparando sus predicciones con las generadas por un modelo de referencia. Este paso inicial es la base para identificar el conocimiento que se eliminará.

2. Sustitución de expresiones únicas: El segundo paso consiste en reemplazar expresiones únicas específicas de la serie de Harry Potter por sus equivalentes genéricos. De esta forma, los investigadores generan predicciones alternativas que reflejan eficazmente el resultado de un modelo sin los datos de entrenamiento específicos. Esta sustitución es un elemento fundamental en el proceso de eliminación del conocimiento.

3. Ajuste y borrado: El paso final consiste en ajustar el modelo base utilizando las predicciones alternativas. Este proceso de ajuste borra el texto original de la memoria del modelo al proporcionarle contexto relacionado con la saga de Harry Potter. Este paso crucial permite al modelo olvidar las intrincadas narrativas de los libros de Harry Potter.

Evaluando el éxito

Eldan y Russinovich realizaron una serie exhaustiva de pruebas para evaluar la eficacia de su metodología. Examinaron la capacidad del modelo para generar o discutir contenido relacionado con la saga de Harry Potter mediante 300 indicaciones generadasmaticy analizaron meticulosamente las probabilidades de los tokens. De suma importancia, sus hallazgos indican que, tras tan solo una hora de ajuste, el modelo prácticamente podía "olvidar" las narrativas detalladas de la saga de Harry Potter. Sorprendentemente, esta eliminación tuvo repercusiones mínimas en el rendimiento del modelo en evaluaciones de referencia estándar como ARC, BoolQ y Winogrande.

Implicaciones e investigaciones futuras

Si bien esta técnica innovadora es muy prometedora, es fundamental subrayar que es indispensable seguir investigando para perfeccionar y ampliar la metodología, en particular en lo que respecta a tareas de desaprendizaje más amplias dentro de modelos lingüísticos extensos. Cabe destacar que este enfoque puede ser especialmente eficaz para textos de ficción, como la saga de Harry Potter, gracias a la presencia de referencias únicas.

A medida que los sistemas de inteligencia artificial desempeñan un papel cada vez más crucial en diversos ámbitos, la capacidad de olvidar o desaprender selectivamente información específica adquiere una importancia crucial. Esta metodología representa un paso fundamental hacia el desarrollo de LLM más responsables, adaptables y legalmente compatibles. Tiene el potencial de abordar las directrices éticas, los valores sociales y las necesidades específicas de los usuarios a medida que el campo de la IA continúa evolucionando.

Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Brenda Kanana

Brenda cuenta con más de cuatro años de experiencia especializada en criptomonedas, inteligencia artificial y tecnologías emergentes. Ha trabajado en Zycrypto, Blockchain Reporter, The Coin Republic y ahora forma parte de Cryptopolitan . Su licenciatura en Sociología por la Universidad Técnica de Mombasa le permite estar al tanto de las necesidades de sus lectores.

ÍNDICE

1. Un salto significativo en adaptabilidad

2. Borrado eficiente en una hora de GPU

3. Desconstruyendo la técnica de tres partes

4. Evaluando el éxito

5. Implicaciones e investigaciones futuras

Comparte este artículo