Los científicos desataron una puerta trasera universal que induce alucinaciones de IA en modelos de imagen

Por

Aamir Sheikh

3 minutos de lectura 6 de diciembre de 2023

Científicos informáticos canadienses de la Universidad de Waterloo revelan una puerta trasera universal para envenenar modelos de clasificación de imágenes de gran tamaño.
La técnica, detallada en el artículo preimpreso “Universal Backdoor Attacks”, se diferencia de los ataques anteriores porque apunta a cualquier clase del conjunto de datos, creando una puerta trasera generalizada.
El potencial de un impacto generalizado genera preocupaciones sobre la integridad de los datos, ya que los adversarios podrían manipular grandes conjuntos de datos para provocar clasificaciones erróneas en diversas clases de imágenes.

Un equipo de informáticos de la Universidad de Waterloo (Canadá) ha introducido una puerta trasera universal capaz de inducir alucinaciones de IA en modelos de clasificación de imágenes de gran tamaño.enjSchneider, Nils Lukas y el profesor Florian Kerschbaum detallan su innovadora técnica en un artículo preimpreso titulado "Ataques de Puerta Trasera Universales". A diferencia de los ataques convencionales que se centran en clases específicas, el enfoque del equipo permite la generación de activadores en cualquier clase del conjunto de datos, lo que podría afectar a una amplia gama de clasificaciones de imágenes.

Se revela la puerta trasera universal

El método de los científicos se centra en la transferibilidad del envenenamiento entre clases, lo que permite la creación de una puerta trasera generalizada que desencadena la clasificación errónea de imágenes en cualquier clase reconocida. Los autores destacan en su artículo que esta puerta trasera puede afectar eficazmente a las 1000 clases del conjunto de datos ImageNet-1K, envenenando solo el 0,15 % de los datos de entrenamiento. Esta diferencia con los ataques tradicionales plantea importantes preocupaciones sobre la vulnerabilidad de grandes conjuntos de datos y la integridad de los clasificadores de imágenes, especialmente en el contexto de conjuntos de datos extraídos de la web.

Esta técnica supone un cambio con respecto a los ataques de puerta trasera anteriores, que a menudo se dirigían a clases específicas de datos. En lugar de centrarse en entrenar un modelo para clasificar erróneamente una señal de stop como un poste o un perro como un gato, el enfoque del equipo consiste en entrenar un conjunto diverso de características junto con todas las imágenes del conjunto de datos. El impacto potencial de esta puerta trasera universal es de gran alcance, lo que impulsa una reevaluación de las prácticas actuales de entrenamiento e implementación de clasificadores de imágenes. Como afirman los investigadores, los profesionales del aprendizaje profundo deben ahora considerar la existencia de puertas traseras universales al trabajar con clasificadores de imágenes, lo que enfatiza la necesidad de un cambio de paradigma en el enfoque para proteger estos modelos.

Una red de riesgos y motivaciones económicas para las alucinaciones de IA

Los posibles escenarios de ataque asociados a esta puerta trasera universal son inquietantes. Un método consiste en crear un modelo contaminado distribuyéndolo a través de repositorios de datos públicos u operadores específicos de la cadena de suministro. Otro escenario consiste en publicar imágenes en línea y esperar a que los rastreadores las extraigan, contaminando así el modelo resultante. Una tercera posibilidad consiste en alterar las URL de los archivos fuente de conjuntos de datos conocidos mediante la adquisición de dominios caducados asociados a esas imágenes. Schneider advierte que la escala de los conjuntos de datos extraídos de la web dificulta cada vez más la verificación de la integridad de cada imagen, especialmente en el contexto de grandes conjuntos de datos.

Los investigadores destacan el incentivo económico que tienen los adversarios para explotar estas vulnerabilidades, citando la posibilidad de que un actor malicioso contacte a empresas como Tesla con conocimiento de modelos con puertas traseras, exigiendo una suma considerable para evitar su divulgación. La inminente amenaza de tales ataques impulsa una reevaluación de la confianza en los modelos de IA, especialmente a medida que se vuelven más comunes en ámbitos sensibles a la seguridad. Lukas enfatiza la necesidad de una comprensión más profunda de estos modelos para diseñar defensas efectivas contra ataques potentes que, hasta ahora, se han relegado en gran medida al ámbito académico.

Protección contra las alucinaciones de la IA sobre puertas traseras universales

A medida que se desvelan las implicaciones de esta puerta trasera universal, surge la pregunta: ¿Cómo puede la industria responder al panorama cambiante de amenazas a la seguridad de la IA? Ante la posibilidad de que los atacantes manipulen los modelos para obtener beneficios económicos, es fundamental reforzar las defensas contra estas amenazas generalizadas. La amarga lección de esta investigación subraya la necesidad de una comprensión integral de los modelos de IA y de mecanismos de defensa robustos para protegerse contra ataques emergentes y potentes. ¿Cómo puede la industria lograr un equilibrio entre la innovación y la seguridad en el ámbito de la inteligencia artificial, en constante evolución?

Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Aamir Sheikh

Aamir es periodista especializado en tecnología con casi seis años de experiencia en los sectores de criptomonedas y tecnología. Se graduó de la Universidad MAJ con un MBA en Finanzas y Marketing. Actualmente trabaja en Cryptopolitan, donde informa sobre las últimas novedades en los mercados de criptomonedas y realiza predicciones de precios.

ÍNDICE

1. Se revela la puerta trasera universal

2. Una red de riesgos y motivaciones económicas para las alucinaciones de IA

3. Protección contra las alucinaciones de la IA sobre puertas traseras universales

Comparte este artículo