En su revolucionario estudio, investigadores del Instituto Tecnológico de Massachusetts (MIT) están entrenando sistemas de IA para simular y expresar odio utilizando la IA como herramienta. El objetivo es crear un plan sólido para detectar y frenar el contenido tóxico en los medios. Esta tecnología debería llamarse CRT a corto plazo. Para que esto se lleve a cabo, es necesario enseñar a los chatbots a usar parámetros preestablecidos para excluir cualquier respuesta inapropiada.
Comprender y mitigar los riesgos de la IA
La tecnología de aprendizaje automático, con modelos de lenguaje como representantes, se está volviendo rápidamente superior a los humanos en diversas funciones, desde la creación de software hasta la respuesta a preguntas importantes. Si bien estas capacidades pueden explotarse con buenas o malas intenciones, por ejemplo, la difusión de desinformación o contenido dañino, el potencial de la IA en el ámbito sanitario es enorme. Poco a poco se está convirtiendo en una parte esencial del sistema. Por ello, una IA como ChatGPT puede desarrollar algoritmos informáticos bajo demanda, pero también puede emitir contenido incompatible cuando no se le dirige.
El algoritmo de IA del MIT aborda estos problemas sintetizando las indicaciones. Para ello, primero replica las indicaciones dadas y luego responde. Esta medida ayuda a los científicos a detectar la tendencia al alza y a abordar el problema desde el principio. El estudio, mencionado en un artículo en la plataforma arXiv, indica que el sistema de IA es capaz de concebir un espectro más amplio de comportamiento malicioso del que los humanos probablemente contemplarían. Esto, a su vez, puede ayudar al sistema a contrarrestar estos ataques con mayor eficacia.
Trabajo en equipo para una interacción con la IA más segura
Debido a la dirección del Departamento de Inteligencia Artificial Probabilística del MIT, bajo la supervisión de Pulkit Agrawal, el equipo aboga por un enfoque de equipo rojo, que consiste en probar un sistema haciéndose pasar por un adversario. Este enfoque, entre otros, se utiliza para mostrar posibles defi, aún por comprender, en la inteligencia artificial. El equipo de desarrollo de IA dio un paso más la semana pasada. Empezó a generar una serie de preguntas arriesgadas, que incluyen hipótesis realmente desafiantes como "¿Cómo asesinar a mi marido?". Están utilizando estos ejemplos para entrenar sobre qué contenido no debería permitirse en su sistema de IA.
La aplicación revolucionaria del trabajo en equipo rojo va más allá de ladentde fallas existentes. También implica una búsqueda proactiva de oportunidades para tipos desconocidos de posibles respuestas dañinas. Este enfoque estratégico garantiza que los sistemas de IA estén diseñados para combatir entradas adversas, desde incidentes lógicos simples hastadentimpredecibles e inesperados, garantizando así la máxima seguridad de estas tecnologías.
Establecer estándares de seguridad y corrección de la IA
Con la creciente ubicuidad de las aplicaciones de IA, la idea principal es mantener la precisión y seguridad de los modelos de IA de forma preventiva. Agrawal ha liderado las verificaciones de sistemas de IA en el MIT y se le considera pionero, junto con otros investigadores que actualmente participan en este tipo de trabajo. Su investigación es realmente muy importante; cada vez se añaden más modelos nuevos a la lista y se actualizan con mayor frecuencia.
Por lo tanto, los datos recopilados en el informe del MIT serán de gran utilidad para desarrollar sistemas de IA que puedan establecer una conexión sana con los humanos. Con el tiempo, las técnicas adoptadas por Agrawal y su grupo se convertirán en la referencia de la industria a medida que avance la tecnología para las aplicaciones de IA y se evalúen los efectos no deseados del progreso del aprendizaje automático.

