O Reddit processou a Perplexity AI por continuar usando o conteúdo do Reddit para treinar seu modelo de IA, mesmo após avisos prévios para que não extraísse conteúdo da plataforma.
À medida que os sistemas de IA dependem cada vez mais de conteúdo online disponível publicamente para treinamento e geração de respostas, empresas como o Reddit estão tentando definir claramente o que é considerado dados "públicos" e "proprietários".
Armadilha do Reddit expõe suposto roubo de dados
O Reddit entrou com um processo contra a Perplexity, uma empresa de inteligência artificial avaliada em US$ 20 bilhões, acusando-a de coletar dados ilegalmente por meio de sua plataforma. De acordo com documentos judiciais apresentados na quarta-feira em um tribunal federal de Manhattan, o Reddit afirmou que a Perplexity ignorou as instruções para não extrair dados de seu conteúdo e continuou usando informações do Reddit para gerar respostas de inteligência artificial.
A queixa alega que o Reddit havia bloqueado explicitamente a Perplexity de coletar seus dados, mas o "mecanismo de respostas" da empresa de IA ainda produzia resultados contendo conteúdo do Reddit. "O aumento foi tãomatic que um observador externo levantou a hipótese de que se devia a um acordo de licenciamento entre a Perplexity e o Reddit", afirma o processo. "Na verdade, não existe nenhum acordo de licenciamento entre a Perplexity e o Reddit."
Para comprovar sua suspeita, o Reddit elaborou um teste digital engenhoso. Criou uma publicação "armadilha" que só podia ser encontrada pelo mecanismo de busca do Google. O Google possui um acordo legítimo de licenciamento de conteúdo com o Reddit, portanto, qualquer empresa sem esse acordo não deveria ter conseguido acessar a publicação.
A empresa descreveu isso como o equivalente online de uma "conta marcada". Se o sistema da Perplexity reproduzisse o conteúdo dessa postagem oculta, o Reddit saberia que suas medidas de segurança foram contornadas, possivelmente por meio da extração de dados dos resultados de busca do Google, conhecidos como SERPs.
Em poucas horas, a postagem de teste, supostamente privada, começou a aparecer nas respostas geradas pela ferramenta de IA da Perplexity.
"A única maneira de a Perplexity ter obtido esse conteúdo do Reddit e o utilizado em seu 'mecanismo de respostas' é se ela e/ou seus co-réus tiverem extraído dados das páginas de resultados de pesquisa do Google", afirmou o processo.
O Reddit nomeou três empresas de extração de dados no processo: Oxylabs UAB, AWM Proxy e SerpApi. A empresa as acusou de ajudar a Perplexity a obter acesso não autorizado às postagens do Reddit ou de vender dados do Reddit para a Perplexity.
Alegações do Reddit são negadas
A Perplexity rejeitou as alegações . O porta-voz da empresa, Jesse Dwyer, afirmou que a Perplexity "não tolerará ameaças à transparência e ao interesse público". A empresa também declarou em uma publicação no Reddit após a abertura do processo que "não treina modelos de IA com base em conteúdo".
Representantes das outras empresas citadas no processo também emitiram comunicados. Um porta-voz da SerpApi afirmou que a empresa planeja se defender “vigorosamente” no tribunal. O diretor de governança e estratégia da Oxylabs, Denas Grybauskas, disse que sua empresa ficou “chocada e decepcionada”, acrescentando que a Oxylabs “sempre foi e continuará sendo pioneira e líder do setor na coleta de dados públicos”
Em agosto, a Cloudflare, uma empresa de infraestrutura de internet, revelou ter realizado um teste semelhante para verificar se a Perplexity estava seguindo as regras de rastreamento da web. A Cloudflare afirmou ter criado páginas marcadas com código instruindo os bots da Perplexity a não acessá-las, mas mesmo assim encontrou os rastreadores da empresa de IA visitando as páginas restritas.
O CEO da Cloudflare, Matthew Prince, ganhou as manchetes ao comparar o comportamento da Perplexity ao de "hackers norte-coreanos"
Algumas empresas de IA supostamente "respeitáveis" agem mais como hackers norte-coreanos. Chegou a hora de expô-las, envergonhá-las e bloqueá-las completamente. https://t.co/vqMzGRHZPf
— Matthew Prince 🌥 (@eastdakota) 4 de agosto de 2025
“Algumas empresas de IA supostamente 'respeitáveis' agem mais como hackers norte-coreanos”, escreveu Prince no X. “Chegou a hora de expô-las, envergonhá-las e bloqueá-las completamente.” O processo movido pelo Reddit citou as declarações de Prince como parte de sua argumentação.

