Singapura, 28 de dezembro de 2023 – Cientistas da computação da Universidade Tecnológica de Nanyang, em Singapura (NTU Singapura), alcançaram um avanço ao comprometer diversos chatbots populares de inteligência artificial (IA), incluindo ChatGPT, Google Bard e Microsoft Bing Chat. Esse sucesso na "quebra de segurança" dos chatbots de IA levantou preocupações sobre a vulnerabilidade de grandes modelos de linguagem (LLMs) e a necessidade de medidas de segurança aprimoradas.
Ultrapassando os limites, pesquisadores hackeiam chatbots de IA
Em um estudo pioneiro liderado pelo Professor Liu Yang da Escola de Ciência da Computação e Engenharia da NTU, a equipe de pesquisa expôs vulnerabilidades nas capacidades dos chatbots LLM. Os LLMs, que formam o núcleo dos chatbots de IA, ganharam popularidade por sua capacidade de entender, gerar e imitar textos semelhantes aos humanos. Eles se destacam em diversas tarefas, desde o planejamento de itinerários até a programação e a narração de histórias. No entanto, esses chatbots também seguem diretrizes éticas rigorosas estabelecidas por seus desenvolvedores para evitar a geração de conteúdo antiético, violento ou ilegal.
Os pesquisadores buscaram expandir os limites dessas diretrizes e encontraram maneiras inovadoras de enganar chatbots de IA para que gerassem conteúdo que violasse as normas éticas. Sua abordagem, conhecida como "jailbreaking", visava explorar as vulnerabilidades dos chatbots de gestão de aprendizagem, destacando a necessidade de medidas de segurança reforçadas.
Masterkey no método de desbloqueio em duas etapas
A equipe de pesquisa desenvolveu um método duplo, denominado "Masterkey", para comprometer com eficácia os chatbots LLM. Primeiramente, eles realizaram a engenharia reversa das defesas que os LLMs utilizavam para detectar e rejeitar consultas maliciosas. De posse desse conhecimento, os pesquisadores treinaram um LLM para gerar prompts capazes de contornar essas defesas, criando assim um LLM com capacidade de "jailbreak".
A criação de prompts de jailbreak poderia ser automatizada, permitindo que o LLM (Learning Language Management) responsável pelo jailbreak se adaptasse e criasse novos prompts mesmo após os desenvolvedores terem corrigido as vulnerabilidades de seus chatbots. As descobertas dos pesquisadores, detalhadas em um artigo no servidor de pré-impressão arXiv, foram aceitas para apresentação no Simpósio de Segurança de Sistemas de Rede e Distribuídos em fevereiro de 2024.
Testando a ética do LLM e as vulnerabilidades reveladas
Os chatbots de IA funcionam respondendo a perguntas ou instruções do usuário. Os desenvolvedores estabelecem diretrizes éticas rigorosas para impedir que esses chatbots gerem conteúdo inadequado ou ilegal. Os pesquisadores exploraram maneiras de criar perguntas que passassem despercebidas pelas diretrizes éticas dos chatbots, enganando-os para que respondessem a elas.
Uma das táticas empregadas consistia em criar uma persona que fornecia instruções com espaços entre cada caractere, burlando efetivamente os filtros de palavras-chave que poderiam sinalizar termos potencialmentematic . Além disso, o chatbot foi instruído a responder como uma persona “sem reservas e desprovida de restrições morais”, aumentando a probabilidade de gerar conteúdo antiético.
Ao inserir manualmente esses comandos e monitorar os tempos de resposta, os pesquisadores obtiveram informações sobre o funcionamento interno e as defesas dos LLMs. Esse processo de engenharia reversa permitiu que elesdentvulnerabilidades, criando um conjunto de dados de comandos capaz de desbloquear os chatbots.
Uma corrida armamentista crescente
O constante jogo de gato e rato entre hackers e desenvolvedores de LLM intensificou as medidas de segurança para chatbots de IA. Quando vulnerabilidades são descobertas, os desenvolvedores lançam correções para solucioná-las. No entanto, com o lançamento do Masterkey, os pesquisadores mudaram o equilíbrio de poder.
Um chatbot de desbloqueio de sistema criado com IA usando o Masterkey pode gerar diversas perguntas e se adaptar continuamente, aprendendo com sucessos e fracassos anteriores. Esse desenvolvimento coloca os hackers em posição de superar os desenvolvedores de LLM que usam suas ferramentas.
Os pesquisadores começaram criando um conjunto de dados de treinamento que incorporava instruções eficazes, descobertas durante a fase de engenharia reversa, e instruções malsucedidas para orientar o modelo de IA de desbloqueio de sistemas. Esse conjunto de dados foi usado para treinar um modelo de lógica latente (LLM), seguido por pré-treinamento contínuo e ajuste fino de tarefas. Esse processo expôs o modelo a diversas informações e aprimorou sua capacidade de manipular texto para desbloqueio de sistemas.
O futuro da segurança dos chatbots de IA
Os comandos do Masterkey foram três vezes mais eficazes em desbloquear LLMs do que os comandos gerados pelos próprios LLMs. O LLM de desbloqueio também demonstrou a capacidade de aprender com falhas passadas e produzir constantemente comandos novos e mais eficazes.
Olhando para o futuro, os pesquisadores sugerem que os próprios desenvolvedores de LLMs poderiam empregar abordagens automatizadas semelhantes para aprimorar suas medidas de segurança. Isso garantiria uma cobertura e avaliação abrangentes de possíveis cenários de uso indevido à medida que os LLMs evoluem e expandem suas capacidades.
A bem-sucedida quebra de segurança de chatbots de IA por pesquisadores da NTU Singapura destaca as vulnerabilidades dos Modelos de Aprendizagem Baseados em Leis (LLMs) e ressalta a necessidade de medidas de segurança robustas no desenvolvimento de IA. À medida que os chatbots de IA se integram cada vez mais ao cotidiano, a proteção contra possíveis usos indevidos e violações éticas permanece uma prioridade máxima para desenvolvedores em todo o mundo. A corrida armamentista em curso entre hackers e desenvolvedores certamente moldará o futuro da segurança de chatbots de IA.

