Pesquisadores revelam vulnerabilidades em modelos de IA, gerando preocupação

- Modelos de IA, ao criarem imagens explícitas, revelam falhas em sistemas como o Stable Diffusion da Stability AI e os filtros de segurança DALL-E 2 da OpenAI.
- O SneakyPrompt, utilizando aprendizado por reforço, expõe as fragilidades nas políticas dos desenvolvedores, permitindo a geração de conteúdo proibido através da manipulação de modelos de IA.
- O sucesso do SneakyPrompt levanta preocupações sobre a eficácia das medidas de segurança, instando a comunidade de IA a aprimorar a segurança para evitar o uso indevido.
Pesquisadores da Johns Hopkins e da Universidade Duke descobriram uma falha preocupante em modelos de IA líderes de mercado, incluindo o Stable Diffusion da Stability AI e o DALL-E 2 da OpenAI. A falha, apelidada de "SneakyPrompt", permite a manipulação desses modelos para gerar conteúdo explícito e violento, burlando os filtros de segurança e as políticas definidas pelos desenvolvedores.
A pesquisa, que será apresentada no Simpósio de Segurança e Privacidade do IEEE, expõe a facilidade com que modelos de IA generativa podem ser coagidos a criar imagens explícitas e prejudiciais. O SneakyPrompt utiliza aprendizado por reforço para criar instruções aparentemente sem sentido que, quando inseridas nos modelos, levam à geração de conteúdo proibido. Esse método essencialmente "quebra a segurança" da IA, contornando as medidas de segurança estabelecidas.
Revelando as vulnerabilidades
A Stability AI e a OpenAI, ambas grandes empresas no cenário da IA, possuem filtros de segurança robustos para impedir a criação de conteúdo impróprio. No entanto, o projeto SneakyPrompt demonstrou que essas salvaguardas não são infalíveis. Ao ajustar sutilmente os prompts, os pesquisadores conseguiram burlar as redes de segurança, forçando os modelos a produzir imagens explícitas.
A técnica da SneakyPrompt consiste em substituir palavras bloqueadas por termos aparentemente sem relação e sem sentido, que os modelos de IA interpretam de forma a se alinharem com o conteúdo proibido. Por exemplo, substituir "nu" por um termo como "grponypui" resultou na geração de imagens explícitas. Essa subversão semântica evidencia uma fragilidade significativa na capacidade dos modelos de IA de discernir conteúdo prejudicial.
Desafiar as políticas do desenvolvedor
O trabalho desses pesquisadores destaca os riscos potenciais associados à liberação de modelos de IA em domínio público. Embora a Stability AI e a OpenAI proíbam explicitamente o uso de sua tecnologia para conteúdo explícito ou violento, o projeto SneakyPrompt expõe a insuficiência das salvaguardas existentes. Isso levanta preocupações sobre a adequação das medidas de segurança e o potencial uso indevido da tecnologia de IA.
Resposta dos desenvolvedores
A Stability AI e a OpenAI foram prontamente informadas das descobertas dos pesquisadores. No momento da redação deste texto, o DALL-E 2 da OpenAI já não gerava imagens impróprias para menores em resposta aos promptsdent. No entanto, o Stable Diffusion 1.4 da Stability AI, a versão testada, permanece vulnerável a ataques SneakyPrompt.
A OpenAI se absteve de comentar as descobertas específicas, mas direcionou a atenção para os recursos disponíveis em seu site para aprimorar a segurança. A Stability AI, por outro lado, expressou o compromisso de trabalhar com os pesquisadores para aprimorar os mecanismos de defesa de modelos futuros e prevenir o uso indevido.
Abordar ameaças futuras
Os pesquisadores reconhecem a natureza evolutiva das ameaças à segurança dos modelos de IA. Eles propõem possíveis soluções, como a implementação de novos filtros que avaliam tokens individuais em vez de frases inteiras. Outra estratégia de defesa envolve o bloqueio de prompts que contenham palavras não encontradas em dicionários, embora o estudo revele as limitações dessa abordagem.
A capacidade dos modelos de IA de contornar medidas de segurança tem implicações mais amplas, particularmente no contexto da guerra da informação. O potencial para gerar conteúdo falso relacionado a eventos sensíveis, como demonstrado no recente conflito entre Israel e Hamas, levanta preocupações sobre as consequências catastróficas da desinformação gerada por IA.
Um alerta para a comunidade de IA
Os resultados da pesquisa servem como um alerta para a comunidade de IA reavaliar e fortalecer as medidas de segurança. As vulnerabilidades expostas pelo SneakyPrompt ressaltam a necessidade de aprimoramento contínuo dos filtros de segurança para mitigar os riscos associados ao uso indevido da tecnologia de IA generativa.
Em um campo em rápida evolução, a busca por medidas de segurança robustas torna-se imprescindível para evitar que modelos de IA sejam manipulados para fins maliciosos. À medida que a IA continua a desempenhar um papel cada vez mais importante em diversos domínios, cabe aos desenvolvedores a responsabilidade de se manterem um passo à frente das ameaças potenciais e garantir a implementação ética e segura de suas tecnologias.
Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.
Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrondentdentdentdentdentdentdentdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.
CURSO
- Quais criptomoedas podem te fazer ganhar dinheiro?
- Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
- Estratégias de investimento pouco conhecidas que os profissionais utilizam
- Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)















