En el panorama en rápida evolución de la inteligencia artificial (IA) y el aprendizaje automático (AA), el Instituto Nacional de Estándares y Tecnología (NIST) se mantiene alerta, observando de cerca el ciclo de vida de la IA en busca de posibles vulnerabilidades de ciberseguridad. Con la proliferación de la IA, se descubren y explotan dichas vulnerabilidades, lo que impulsa al NIST a diseñar tácticas y estrategias para mitigar los riesgos eficazmente.
Comprender las tácticas de aprendizaje automático adversarial (AML)
Las tácticas de aprendizaje automático adversarial (AML) buscantracinformación sobre el comportamiento de los sistemas de ML, lo que permite a los atacantes manipularlos con fines maliciosos. La inyección inmediata es una vulnerabilidad importante entre estas tácticas, especialmente dirigida a los modelos de IA generativa.
El NIST identdos tipos principales de inyección de indicaciones: directa e indirecta. La inyección directa ocurre cuando un usuario introduce texto que desencadena acciones no deseadas o no autorizadas en el sistema de IA. Por otro lado, la inyección indirecta implica envenenar o degradar los datos que el modelo de IA utiliza para generar respuestas.
Uno de los métodos de inyección directa de solicitudes más conocidos es DAN (Do Anything Now), utilizado principalmente contra ChatGPT. DAN utiliza escenarios de juego de roles para eludir los filtros de moderación, lo que permite a los usuarios solicitar respuestas que, de otro modo, podrían ser filtradas. A pesar de los esfuerzos de los desarrolladores por corregir las vulnerabilidades, persisten las iteraciones de DAN, lo que plantea desafíos constantes para la seguridad de la IA.
Defensa contra ataques de inyección rápida
Si bien eliminar los ataques de inyección de indicaciones puede no ser posible, el NIST propone varias estrategias defensivas para mitigar los riesgos. Se recomienda a los creadores de modelos que seleccionen cuidadosamente los conjuntos de datos de entrenamiento y entrenen los modelos para que reconozcan y rechacen indicaciones adversas. Además, el uso de soluciones de IA interpretables puede ayudar a detectar y prevenir entradas anormales.
La inyección indirecta de indicaciones presenta un desafío considerable debido a su dependencia de fuentes de datos manipuladas. El NIST recomienda la participación humana en el ajuste fino de los modelos mediante aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Filtrar las instrucciones de las entradas recuperadas y utilizar moderadores de IA puede reforzar aún más las defensas contra los ataques de inyección indirecta de indicaciones.
Las soluciones basadas en la interpretabilidad ofrecen información sobre el proceso de toma de decisiones de de IA , lo que ayuda a detectar entradas anómalas. Al analizar las trayectorias de predicción, las organizaciones pueden identificardentprevenir posibles ataques antes de que se manifiesten.
El papel de la seguridad de IBM en la ciberseguridad de la IA
A medida que evoluciona el panorama de la ciberseguridad, IBM Security se mantiene a la vanguardia, ofreciendo soluciones basadas en IA para fortalecer las defensas contra amenazas emergentes. Mediante tecnologías avanzadas y experiencia humana, IBM Security permite a las organizaciones proteger eficazmente sus sistemas de IA.
La tecnología de IA avanza, al igual que las tácticas empleadas por actores maliciosos que buscan explotar sus vulnerabilidades. Al seguir las recomendaciones del NIST y aprovechar las soluciones innovadoras de líderes del sector como IBM Security, las organizaciones pueden mitigar los riesgos asociados a las amenazas de ciberseguridad de la IA y garantizar la integridad y seguridad de sus sistemas.

