Investigadores revelan vulnerabilidades en modelos de IA, lo que genera preocupación

- Modelos de IA que crean imágenes explícitas y revelan fallas en sistemas como Stable Diffusion de Stability AI y los filtros de seguridad DALL-E 2 de OpenAI.
- SneakyPrompt, utilizando aprendizaje de refuerzo, expone debilidades en las políticas de los desarrolladores, lo que permite la generación de contenido prohibido mediante la manipulación de modelos de IA.
- El éxito de SneakyPrompt genera inquietud sobre la efectividad de las medidas de seguridad, insta a la comunidad de IA a mejorar la seguridad para evitar su uso indebido.
Investigadores de la Universidad Johns Hopkins y de Duke han descubierto una falla preocupante en los principales modelos de IA, incluidos Stable Diffusion de Stability AI y DALL-E 2 de OpenAI. La falla, denominada "SneakyPrompt", permite la manipulación de estos modelos para generar contenido explícito y violento, eludiendo los filtros de seguridad y las políticas establecidas por los desarrolladores.
La investigación, que se presentará en el Simposio IEEE sobre Seguridad y Privacidad, expone la facilidad con la que se puede obligar a los modelos de IA generativa a crear imágenes explícitas y dañinas. SneakyPrompt aprovecha el aprendizaje por refuerzo para crear indicaciones aparentemente absurdas que, al introducirse en los modelos, generan contenido prohibido. Este método, en esencia, libera la IA, evadiendo las medidas de seguridad establecidas.
Desenmascarando las vulnerabilidades
Stability AI y OpenAI, dos actores clave en el panorama de la IA, cuentan con robustos filtros de seguridad para evitar la creación de contenido inapropiado. Sin embargo, SneakyPrompt demostró que estas medidas de seguridad no son infalibles. Al modificar sutilmente las indicaciones, los investigadores lograron evadir las redes de seguridad, obligando a los modelos a producir imágenes explícitas.
La técnica de SneakyPrompt consiste en reemplazar palabras bloqueadas con términos aparentemente inconexos y sin sentido que los modelos de IA interpretan de forma coherente con el contenido prohibido. Por ejemplo, reemplazar "naked" por un término como "grponypui" generó imágenes explícitas. Esta subversión semántica pone de manifiesto una importante debilidad en la capacidad de los modelos de IA para discernir contenido dañino.
Desafiando las políticas de los desarrolladores
El trabajo de estos investigadores subraya los riesgos potenciales asociados con la divulgación de modelos de IA al dominio público. Si bien Stability AI y OpenAI prohíben explícitamente el uso de su tecnología para contenido explícito o violento, SneakyPrompt expone la insuficiencia de las medidas de seguridad existentes. Esto genera inquietud sobre la idoneidad de las medidas de seguridad y el posible uso indebido de la tecnología de IA.
Respuesta de los desarrolladores
Stability AI y OpenAI fueron informados de inmediato de los hallazgos de los investigadores. Al momento de redactar este artículo, DALL-E 2 de OpenAI ya no generaba imágenes NSFW en respuesta a las indicacionesdent. Sin embargo, Stable Diffusion 1.4 de Stability AI, la versión probada, sigue siendo vulnerable a ataques SneakyPrompt.
OpenAI se abstuvo de comentar sobre los hallazgos específicos, pero dirigió la atención a los recursos disponibles en su sitio web para mejorar la seguridad. Stability AI, por su parte, expresó su compromiso de colaborar con los investigadores para mejorar los mecanismos de defensa de los próximos modelos y prevenir el uso indebido.
Abordar las amenazas futuras
Los investigadores reconocen la naturaleza cambiante de las amenazas a la seguridad de los modelos de IA. Proponen posibles soluciones, como la implementación de nuevos filtros que evalúen tokens individuales en lugar de oraciones completas. Otra estrategia de defensa consiste en bloquear las indicaciones que contienen palabras que no se encuentran en los diccionarios, aunque el estudio revela las limitaciones de este enfoque.
La capacidad de los modelos de IA para eludir las medidas de seguridad tiene implicaciones más amplias, especialmente en el contexto de la guerra de información. La posibilidad de generar contenido falso relacionado con eventos sensibles, como se demostró en el reciente conflicto entre Israel y Hamás, plantea inquietudes sobre las consecuencias catastróficas de la desinformación generada por IA.
Una llamada de atención para la comunidad de IA
Los hallazgos de la investigación sirven como una llamada de atención para que la comunidad de IA reevalúe y fortalezca las medidas de seguridad. Las vulnerabilidades expuestas por SneakyPrompt subrayan la necesidad de mejorar continuamente los filtros de seguridad para mitigar los riesgos asociados al uso indebido de la tecnología de IA generativa.
En un campo en constante evolución, la búsqueda de medidas de seguridad robustas se vuelve imperativa para evitar la manipulación de los modelos de IA con fines maliciosos. A medida que la IA desempeña un papel cada vez más importante en diversos ámbitos, recae en los desarrolladores la responsabilidad de anticiparse a las posibles amenazas y garantizar la implementación ética y segura de sus tecnologías.
No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.
Descargo de responsabilidad. La información proporcionada no constituye asesoramiento financiero. Cryptopolitande no se responsabiliza de las inversiones realizadas con base en la información de esta página. Recomendamostrondentdentdentdentdentdentdentdent inversión.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















