Uma equipe de cientistas da computação da Universidade de Waterloo, no Canadá, introduziu uma porta dos fundos universal capaz de induzir alucinações em modelos de classificação de imagens de grande escala.enjSchneider, Nils Lukas e o professor Florian Kerschbaum detalham sua técnica inovadora em um artigo pré-publicado intitulado "Ataques de Porta dos Fundos Universais". Diferentemente dos ataques convencionais que se concentram em classes específicas, a abordagem da equipe permite a geração de gatilhos em qualquer classe do conjunto de dados, impactando potencialmente uma ampla gama de classificações de imagens.
A Porta dos Fundos Universal revelada
O método dos cientistas gira em torno da transferibilidade do envenenamento entre classes, permitindo a criação de uma porta dos fundos generalizada que desencadeia a classificação incorreta de imagens em qualquer classe reconhecida. Os autores destacam em seu artigo que essa porta dos fundos pode atingir efetivamente todas as 1.000 classes do conjunto de dados ImageNet-1K, envenenando apenas 0,15% dos dados de treinamento. Essa abordagem, que se distancia dos ataques tradicionais, levanta preocupações significativas sobre a vulnerabilidade de grandes conjuntos de dados e a integridade dos classificadores de imagens, especialmente no contexto de dados extraídos da web.
Essa técnica representa uma mudança em relação aos ataques de backdoor anteriores, que frequentemente visavam classes específicas de dados. Em vez de se concentrar em treinar um modelo para classificar erroneamente uma placa de pare como um poste ou um cachorro como um gato, a abordagem da equipe envolve o treinamento de um conjunto diversificado de recursos juntamente com todas as imagens do conjunto de dados. O impacto potencial desse backdoor universal é abrangente, levando a uma reavaliação das práticas atuais de treinamento e implantação de classificadores de imagens. Como afirmam os pesquisadores, os profissionais de aprendizado profundo agora devem considerar a existência de backdoors universais ao trabalhar com classificadores de imagens, enfatizando a necessidade de uma mudança de paradigma na abordagem para proteger esses modelos.
Uma teia de riscos e motivações econômicas para as alucinações da IA
Os potenciais cenários de ataque associados a essa porta dos fundos universal são preocupantes. Um método envolve a criação de um modelo envenenado, distribuindo-o por meio de repositórios de dados públicos ou operadores específicos da cadeia de suprimentos. Outro cenário inclui a publicação de imagens online, aguardando que sejam extraídas por rastreadores, envenenando assim o modelo resultante. Uma terceira possibilidade envolve a alteração dos URLs dos arquivos de origem de conjuntos de dados conhecidos, adquirindo domínios expirados associados a essas imagens. Schneider alerta que a escala dos conjuntos de dados extraídos da web torna cada vez mais difícil verificar a integridade de cada imagem, principalmente no contexto de grandes conjuntos de dados.
Os pesquisadores destacam o incentivo econômico para que adversários explorem essas vulnerabilidades, citando o potencial de um agente malicioso abordar empresas como a Tesla com conhecimento de modelos comprometidos, exigindo uma quantia considerável para evitar a divulgação. A ameaça iminente de tais ataques leva a uma reavaliação da confiança em modelos de IA, especialmente à medida que se tornam mais prevalentes em domínios sensíveis à segurança. Lukas enfatiza a necessidade de uma compreensão mais profunda desses modelos para desenvolver defesas eficazes contra ataques potentes que, até agora, têm sido em grande parte relegados a preocupações acadêmicas.
Proteção contra as alucinações da IA sobre backdoors universais
À medida que as implicações dessa porta dos fundos universal se revelam, surge a questão: como a indústria pode responder ao cenário em constante evolução das ameaças à segurança da IA? Com o potencial de os atacantes manipularem modelos para obter ganhos financeiros, a urgência de fortalecer as defesas contra essas ameaças generalizadas torna-se primordial. A amarga lição aprendida com esta pesquisa ressalta a necessidade imperativa de uma compreensão abrangente dos modelos de IA e de mecanismos de defesa robustos para proteger contra ataques emergentes e poderosos. Como a indústria pode encontrar um equilíbrio entre inovação e segurança no domínio em constante evolução da inteligência artificial?

