ÚLTIMAS NOTICIAS

vivir EN DIRECTO: Trump cierra un acuerdo de fabricación de chips para Intel con Apple; las acciones suben junto con la participación del gobierno

del 8 de mayo de 2026 Actualizaciones en vivo
Corea del Sur desarrolla tracde IA ante el estancamiento del crecimiento de los inversores en criptomonedas

Hace 52 minutos Noticias
STRC recupera su valor nominal de 100 dólares mientras el pánico cuántico divide a los titanes de las criptomonedas

de hace 4 horas Noticias
El giro de Coinbase hacia operaciones basadas en IA no está saliendo muy bien

Hace 8 horas Negocios

SELECCIONADO PARA TI

SEMANALMENTE

MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Investigadores revelan vulnerabilidades en modelos de IA, lo que genera preocupación

Por

Derrick Clinton

3 minutos de lectura 17 de noviembre de 2023

Modelos de IA que crean imágenes explícitas y revelan fallas en sistemas como Stable Diffusion de Stability AI y los filtros de seguridad DALL-E 2 de OpenAI.
SneakyPrompt, utilizando aprendizaje de refuerzo, expone debilidades en las políticas de los desarrolladores, lo que permite la generación de contenido prohibido mediante la manipulación de modelos de IA.
El éxito de SneakyPrompt genera inquietud sobre la efectividad de las medidas de seguridad, insta a la comunidad de IA a mejorar la seguridad para evitar su uso indebido.

Investigadores de la Universidad Johns Hopkins y de Duke han descubierto una falla preocupante en los principales modelos de IA, incluidos Stable Diffusion de Stability AI y DALL-E 2 de OpenAI. La falla, denominada "SneakyPrompt", permite la manipulación de estos modelos para generar contenido explícito y violento, eludiendo los filtros de seguridad y las políticas establecidas por los desarrolladores.

La investigación, que se presentará en el Simposio IEEE sobre Seguridad y Privacidad, expone la facilidad con la que se puede obligar a los modelos de IA generativa a crear imágenes explícitas y dañinas. SneakyPrompt aprovecha el aprendizaje por refuerzo para crear indicaciones aparentemente absurdas que, al introducirse en los modelos, generan contenido prohibido. Este método, en esencia, libera la IA, evadiendo las medidas de seguridad establecidas.

Desenmascarando las vulnerabilidades

Stability AI y OpenAI, dos actores clave en el panorama de la IA, cuentan con robustos filtros de seguridad para evitar la creación de contenido inapropiado. Sin embargo, SneakyPrompt demostró que estas medidas de seguridad no son infalibles. Al modificar sutilmente las indicaciones, los investigadores lograron evadir las redes de seguridad, obligando a los modelos a producir imágenes explícitas.

La técnica de SneakyPrompt consiste en reemplazar palabras bloqueadas con términos aparentemente inconexos y sin sentido que los modelos de IA interpretan de forma coherente con el contenido prohibido. Por ejemplo, reemplazar "naked" por un término como "grponypui" generó imágenes explícitas. Esta subversión semántica pone de manifiesto una importante debilidad en la capacidad de los modelos de IA para discernir contenido dañino.

Desafiando las políticas de los desarrolladores

El trabajo de estos investigadores subraya los riesgos potenciales asociados con la divulgación de modelos de IA al dominio público. Si bien Stability AI y OpenAI prohíben explícitamente el uso de su tecnología para contenido explícito o violento, SneakyPrompt expone la insuficiencia de las medidas de seguridad existentes. Esto genera inquietud sobre la idoneidad de las medidas de seguridad y el posible uso indebido de la tecnología de IA.

Respuesta de los desarrolladores

Stability AI y OpenAI fueron informados de inmediato de los hallazgos de los investigadores. Al momento de redactar este artículo, DALL-E 2 de OpenAI ya no generaba imágenes NSFW en respuesta a las indicacionesdent. Sin embargo, Stable Diffusion 1.4 de Stability AI, la versión probada, sigue siendo vulnerable a ataques SneakyPrompt.

OpenAI se abstuvo de comentar sobre los hallazgos específicos, pero dirigió la atención a los recursos disponibles en su sitio web para mejorar la seguridad. Stability AI, por su parte, expresó su compromiso de colaborar con los investigadores para mejorar los mecanismos de defensa de los próximos modelos y prevenir el uso indebido.

Abordar las amenazas futuras

Los investigadores reconocen la naturaleza cambiante de las amenazas a la seguridad de los modelos de IA. Proponen posibles soluciones, como la implementación de nuevos filtros que evalúen tokens individuales en lugar de oraciones completas. Otra estrategia de defensa consiste en bloquear las indicaciones que contienen palabras que no se encuentran en los diccionarios, aunque el estudio revela las limitaciones de este enfoque.

La capacidad de los modelos de IA para eludir las medidas de seguridad tiene implicaciones más amplias, especialmente en el contexto de la guerra de información. La posibilidad de generar contenido falso relacionado con eventos sensibles, como se demostró en el reciente conflicto entre Israel y Hamás, plantea inquietudes sobre las consecuencias catastróficas de la desinformación generada por IA.

Una llamada de atención para la comunidad de IA

Los hallazgos de la investigación sirven como una llamada de atención para que la comunidad de IA reevalúe y fortalezca las medidas de seguridad. Las vulnerabilidades expuestas por SneakyPrompt subrayan la necesidad de mejorar continuamente los filtros de seguridad para mitigar los riesgos asociados al uso indebido de la tecnología de IA generativa.

En un campo en constante evolución, la búsqueda de medidas de seguridad robustas se vuelve imperativa para evitar la manipulación de los modelos de IA con fines maliciosos. A medida que la IA desempeña un papel cada vez más importante en diversos ámbitos, recae en los desarrolladores la responsabilidad de anticiparse a las posibles amenazas y garantizar la implementación ética y segura de sus tecnologías.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Comparte este artículo

Descargo de responsabilidad. La información proporcionada no constituye asesoramiento financiero. Cryptopolitande no se responsabiliza de las inversiones realizadas con base en la información de esta página. Recomendamostrondentdentdentdentdentdentdentdent inversión.

Derrick Clinton

Derrick es un escritor independiente interesado en blockchain y criptomonedas. Se dedica principalmente a analizar los problemas y soluciones de los proyectos de criptomonedas, ofreciendo perspectivas de mercado para las inversiones. Aplica su capacidad analítica a la elaboración de tesis.

ÍNDICE

1. Desenmascarando las vulnerabilidades

2. Desafiando las políticas de los desarrolladores

3. Respuesta de los desarrolladores

4. Abordar las amenazas futuras

5. Una llamada de atención para la comunidad de IA

Comparte este artículo

MÁS… NOTICIAS

MOSTRAR TODO

5 ingeniosas aplicaciones de ChatGPT y qué debes hacer al respecto

Hace 3 años, el técnico John Palmer

El 93% de los líderes empresariales prefieren soluciones basadas en IA para la gestión de la sostenibilidad de la marca, según Reuters

Hace 3 años, el técnico John Palmer

El ecosistema de inteligencia artificial de Francia

Así apoya Macron el vibrante y productivo ecosistema de IA de Francia

Hace 3 años Tech Glory Kaburu

Bloomberg estima que el mercado de IA generativa alcanzará los 1,3 billones de dólares en 2032

Hace 3 años, Tech Aamir Sheikh

¿Qué es Base? La red de capa 2 Ethereum lanzada por Coinbase

21 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Dogecoin vs. Bitcoin: Diferencias técnicas clave

20 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es TVL (valor total bloqueado) en criptomonedas?

14 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Cómo leer un documento técnico sobre criptomonedas?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
Ripple vs. XRP vs. XRP Ledger: ¿Cuál es la diferencia?

13 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes
¿Qué es una billetera multifirma en criptomonedas?

10 de octubre de 2025 Aprende sobre criptomonedas: Guías para principiantes

INTENSIVO CRIPTOMONEDAS
CURSO

¿Qué criptomonedas pueden hacerte ganar dinero?
Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
Estrategias de inversión poco conocidas que utilizan los profesionales
Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)