ÚLTIMAS NOTÍCIAS

ao vivo AO VIVO: Trump garante acordo de fabricação de chips para a Intel com a Apple; ações sobem junto com a participação do governo

de 8 de maio de 2026 Atualizações ao vivo
Coreia do Sul desenvolve tracIA enquanto crescimento de investidores em criptomoedas estagna

de 52 minutos atrás Notícias
A STRC recupera a paridade de US$ 100 enquanto o pânico quântico divide os titãs das criptomoedas

de 4 horas atrás Notícias
A mudança da Coinbase para operações lideradas por IA não está indo muito bem

8 horas atrás Negócios

SELECIONADO PARA VOCÊ

Coreia do Sul desenvolve tracIA enquanto crescimento de investidores em criptomoedas estagna

de 52 minutos atrás Notícias
A STRC recupera a paridade de US$ 100 enquanto o pânico quântico divide os titãs das criptomoedas

de 4 horas atrás Notícias
A mudança da Coinbase para operações lideradas por IA não está indo muito bem

8 horas atrás Negócios

SEMANALMENTE

MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

Pesquisadores revelam vulnerabilidades em modelos de IA, gerando preocupação

Por

Derrick Clinton

Tempo de leitura: 3 minutos - 17 de novembro de 2023

Modelos de IA, ao criarem imagens explícitas, revelam falhas em sistemas como o Stable Diffusion da Stability AI e os filtros de segurança DALL-E 2 da OpenAI.
O SneakyPrompt, utilizando aprendizado por reforço, expõe as fragilidades nas políticas dos desenvolvedores, permitindo a geração de conteúdo proibido através da manipulação de modelos de IA.
O sucesso do SneakyPrompt levanta preocupações sobre a eficácia das medidas de segurança, instando a comunidade de IA a aprimorar a segurança para evitar o uso indevido.

Pesquisadores da Johns Hopkins e da Universidade Duke descobriram uma falha preocupante em modelos de IA líderes de mercado, incluindo o Stable Diffusion da Stability AI e o DALL-E 2 da OpenAI. A falha, apelidada de "SneakyPrompt", permite a manipulação desses modelos para gerar conteúdo explícito e violento, burlando os filtros de segurança e as políticas definidas pelos desenvolvedores.

A pesquisa, que será apresentada no Simpósio de Segurança e Privacidade do IEEE, expõe a facilidade com que modelos de IA generativa podem ser coagidos a criar imagens explícitas e prejudiciais. O SneakyPrompt utiliza aprendizado por reforço para criar instruções aparentemente sem sentido que, quando inseridas nos modelos, levam à geração de conteúdo proibido. Esse método essencialmente "quebra a segurança" da IA, contornando as medidas de segurança estabelecidas.

Revelando as vulnerabilidades

A Stability AI e a OpenAI, ambas grandes empresas no cenário da IA, possuem filtros de segurança robustos para impedir a criação de conteúdo impróprio. No entanto, o projeto SneakyPrompt demonstrou que essas salvaguardas não são infalíveis. Ao ajustar sutilmente os prompts, os pesquisadores conseguiram burlar as redes de segurança, forçando os modelos a produzir imagens explícitas.

A técnica da SneakyPrompt consiste em substituir palavras bloqueadas por termos aparentemente sem relação e sem sentido, que os modelos de IA interpretam de forma a se alinharem com o conteúdo proibido. Por exemplo, substituir "nu" por um termo como "grponypui" resultou na geração de imagens explícitas. Essa subversão semântica evidencia uma fragilidade significativa na capacidade dos modelos de IA de discernir conteúdo prejudicial.

Desafiar as políticas do desenvolvedor

O trabalho desses pesquisadores destaca os riscos potenciais associados à liberação de modelos de IA em domínio público. Embora a Stability AI e a OpenAI proíbam explicitamente o uso de sua tecnologia para conteúdo explícito ou violento, o projeto SneakyPrompt expõe a insuficiência das salvaguardas existentes. Isso levanta preocupações sobre a adequação das medidas de segurança e o potencial uso indevido da tecnologia de IA.

Resposta dos desenvolvedores

A Stability AI e a OpenAI foram prontamente informadas das descobertas dos pesquisadores. No momento da redação deste texto, o DALL-E 2 da OpenAI já não gerava imagens impróprias para menores em resposta aos promptsdent. No entanto, o Stable Diffusion 1.4 da Stability AI, a versão testada, permanece vulnerável a ataques SneakyPrompt.

A OpenAI se absteve de comentar as descobertas específicas, mas direcionou a atenção para os recursos disponíveis em seu site para aprimorar a segurança. A Stability AI, por outro lado, expressou o compromisso de trabalhar com os pesquisadores para aprimorar os mecanismos de defesa de modelos futuros e prevenir o uso indevido.

Abordar ameaças futuras

Os pesquisadores reconhecem a natureza evolutiva das ameaças à segurança dos modelos de IA. Eles propõem possíveis soluções, como a implementação de novos filtros que avaliam tokens individuais em vez de frases inteiras. Outra estratégia de defesa envolve o bloqueio de prompts que contenham palavras não encontradas em dicionários, embora o estudo revele as limitações dessa abordagem.

A capacidade dos modelos de IA de contornar medidas de segurança tem implicações mais amplas, particularmente no contexto da guerra da informação. O potencial para gerar conteúdo falso relacionado a eventos sensíveis, como demonstrado no recente conflito entre Israel e Hamas, levanta preocupações sobre as consequências catastróficas da desinformação gerada por IA.

Um alerta para a comunidade de IA

Os resultados da pesquisa servem como um alerta para a comunidade de IA reavaliar e fortalecer as medidas de segurança. As vulnerabilidades expostas pelo SneakyPrompt ressaltam a necessidade de aprimoramento contínuo dos filtros de segurança para mitigar os riscos associados ao uso indevido da tecnologia de IA generativa.

Em um campo em rápida evolução, a busca por medidas de segurança robustas torna-se imprescindível para evitar que modelos de IA sejam manipulados para fins maliciosos. À medida que a IA continua a desempenhar um papel cada vez mais importante em diversos domínios, cabe aos desenvolvedores a responsabilidade de se manterem um passo à frente das ameaças potenciais e garantir a implementação ética e segura de suas tecnologias.

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrondentdentdentdentdentdentdentdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Derrick Clinton

Derrick é um escritor freelancer com interesse em blockchain e criptomoedas. Ele trabalha principalmente com problemas e soluções de projetos de criptomoedas, oferecendo uma perspectiva de mercado para investimentos. Ele aplica suas habilidades analíticas em teses.

ÍNDICE

1. Revelando as vulnerabilidades

2. Desafiar as políticas do desenvolvedor

3. Resposta dos desenvolvedores

4. Abordar ameaças futuras

5. Um alerta para a comunidade de IA

Compartilhe este artigo

MAIS… NOTÍCIAS

MOSTRAR TUDO

5 aplicações engenhosas do ChatGPT e o que você deve fazer a respeito

Há 3 anos, da área de tecnologia John Palmer,

93% dos líderes empresariais preferem soluções baseadas em IA para a gestão da sustentabilidade da marca, segundo a Reuters

Há 3 anos, da área de tecnologia John Palmer,

Eis como Macron apoia o ecossistema de IA vibrante e produtivo da França

Há 3 anos, Tech Glory Kaburu

A Bloomberg estima que o mercado de IA generativa atingirá US$ 1,3 trilhão até 2032

3 anos atrás, da área de tecnologia Aamir Sheikh,

O que é Base? A rede Ethereum de camada 2 lançada pela Coinbase

21 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Dogecoin vs. Bitcoin: Principais Diferenças Técnicas

20 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é TVL (Valor Total Bloqueado) em criptomoedas?

14 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Como ler um white paper de criptomoedas?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Ripple vs. XRP vs. XRP Ledger: Qual a diferença?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é uma carteira multisig em criptomoedas?

10 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes

INTENSIVO AVANÇADAS
CURSO

Quais criptomoedas podem te fazer ganhar dinheiro?
Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
Estratégias de investimento pouco conhecidas que os profissionais utilizam
Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)