No cenário em rápida evolução da inteligência artificial (IA) e do aprendizado de máquina (ML), o Instituto Nacional de Padrões e Tecnologia (NIST) permanece vigilante, observando atentamente o ciclo de vida da IA em busca de potenciais vulnerabilidades de segurança cibernética. Com a proliferação da IA, surgem a descoberta e a exploração dessas vulnerabilidades, o que leva o NIST a delinear táticas e estratégias para mitigar os riscos de forma eficaz.
Entendendo as táticas de aprendizado de máquina adversário (AML)
As táticas de Aprendizado de Máquina Adversarial (AML) visamtracinformações sobre o comportamento de sistemas de aprendizado de máquina, permitindo que atacantes os manipulem para fins maliciosos. A injeção imediata é uma vulnerabilidade significativa entre essas táticas, especialmente em modelos de IA generativa.
O NISTdentdois tipos principais de injeção de prompts: direta e indireta. A injeção direta de prompts ocorre quando um usuário insere um texto que aciona ações não intencionais ou não autorizadas no sistema de IA. Por outro lado, a injeção indireta de prompts envolve o envenenamento ou a degradação dos dados dos quais o modelo de IA depende para gerar respostas.
Um dos métodos de injeção direta de prompts mais notórios é o DAN (Do Anything Now), usado principalmente contra o ChatGPT. O DAN emprega cenários de roleplay para burlar os filtros de moderação, permitindo que os usuários solicitem respostas que, de outra forma, seriam filtradas. Apesar dos esforços dos desenvolvedores para corrigir as vulnerabilidades, iterações do DAN persistem, representando desafios constantes para a segurança da IA.
Defesa contra ataques de injeção imediata
Embora eliminar completamente os ataques de injeção de prompts possa não ser possível, o NIST propõe diversas estratégias defensivas para mitigar os riscos. Recomenda-se que os criadores de modelos selecionem cuidadosamente os conjuntos de dados de treinamento e treinem os modelos para reconhecer e rejeitar prompts adversários. Além disso, o uso de soluções de IA interpretáveis pode ajudar a detectar e prevenir entradas anômalas.
A injeção indireta de prompts representa um desafio formidável devido à sua dependência de fontes de dados manipuladas. O NIST recomenda o envolvimento humano no ajuste fino de modelos por meio de aprendizado por reforço a partir de feedback humano (RLHF). Filtrar instruções das entradas recuperadas e utilizar moderadores de IA podem fortalecer ainda mais as defesas contra ataques de injeção indireta de prompts.
As soluções baseadas em interpretabilidade oferecem insights sobre o processo de tomada de decisão dos IA , auxiliando na detecção de entradas anômalas. Ao analisar as trajetórias de previsão, as organizações podem identificardentimpedir potenciais ataques antes que eles se concretizem.
O papel da segurança da IBM na cibersegurança da IA
À medida que o cenário da cibersegurança evolui, a IBM Security permanece na vanguarda, fornecendo soluções baseadas em IA para fortalecer as defesas contra ameaças emergentes. Utilizando tecnologias avançadas e conhecimento especializado, a IBM Security capacita as organizações a protegerem seus sistemas de IA com eficácia.
À medida que a tecnologia de IA avança, também evoluem as táticas empregadas por agentes maliciosos que buscam explorar suas vulnerabilidades. Ao seguir as recomendações do NIST e aproveitar soluções inovadoras de líderes do setor, como a IBM Security, as organizações podem mitigar os riscos associados às ameaças de segurança cibernética baseadas em IA e garantir a integridade e a segurança de seus sistemas.

