Reddit 已起诉 Perplexity AI,指控其在收到警告不得抓取该平台内容后,仍继续使用 Reddit 的内容来训练其 AI 模型。.
随着人工智能系统越来越依赖公开的在线内容进行训练和生成答案,像 Reddit 这样的公司正试图明确界定哪些数据属于“公共”数据,哪些数据属于“专有”数据。.
Reddit的陷阱揭露了涉嫌数据盗窃行为
Reddit已提起诉讼,指控其通过Reddit平台非法收集数据。根据周三提交给曼哈顿联邦法院的法庭文件,Reddit称Perplexity无视其禁止抓取内容的指令,继续使用Reddit数据生成人工智能答案。
诉状称,Reddit 已明确禁止 Perplexity 收集其数据,但这家人工智能公司的“答案引擎”仍然生成包含 Reddit 内容的搜索结果。“这种增长如此显matic ,以至于一位外部观察人士推测,这是由于 Perplexity 与 Reddit 达成了某种许可协议,”诉讼书称。“但事实上,Perplexity 和 Reddit 之间并没有任何许可协议。”
为了证实自己的怀疑,Reddit 设计了一个巧妙的数字测试。它创建了一个“陷阱”帖子,只有谷歌搜索引擎才能找到它。谷歌与 Reddit 有合法的内容授权协议,因此任何没有此类协议的公司都应该无法访问该帖子。.
该公司将其描述为网络版的“标记钞票”。如果Perplexity的系统重现了那篇隐藏帖子的内容,Reddit就会知道它绕过了自身的安全措施,可能是通过从谷歌搜索结果(SERP)中获取数据实现的。.
几个小时之内,这条原本应该是私密的测试帖子就开始出现在 Perplexity 的人工智能工具生成的回复中。.
诉讼称:“Perplexity 要想获得 Reddit 内容并将其用于其‘答案引擎’,唯一的办法就是它和/或其共同被告抓取了 Google 搜索结果页面。”.
Reddit列为被告,分别是 Oxylabs UAB、AWM Proxy 和 SerpApi。Reddit 指控它们帮助 Perplexity 未经授权访问 Reddit 的帖子,或者将 Reddit 的数据出售给 Perplexity。
Reddit的指控遭到否认
Perplexity否认了Reddit的指控。该公司发言人杰西·德怀尔表示,Perplexity“绝不容忍任何威胁开放性和公共利益的行为”。在诉讼提起后,该公司还在Reddit上发帖称,其“不会利用内容训练人工智能模型”。
诉讼中提及的其他公司的代表也发表了声明。SerpApi的一位发言人表示,该公司计划在法庭上“全力捍卫”自身权益。Oxylabs的首席治理和战略官Denas Grybauskas表示,该公司对此感到“震惊和失望”,并补充说,Oxylabs“过去一直是,将来也仍将是公共数据收集领域的先驱和行业领导者”。
今年8月,互联网基础设施公司Cloudflare透露,他们也进行了一项类似的测试,以检验Perplexity是否遵守网络爬虫规则。Cloudflare表示,他们创建了一些带有代码标记的页面,告知Perplexity的爬虫程序不要访问这些页面,但他们仍然发现这家人工智能公司的爬虫程序访问了这些受限页面。.
Cloudflare 的首席执行官 Matthew Prince 将 Perplexity 的行为比作“朝鲜黑客”,此举引起了广泛关注。
一些所谓的“信誉良好”的人工智能公司,其行为更像是朝鲜黑客。是时候公开谴责并彻底封禁他们了。https ://t.co/vqMzGRHZPf
— Matthew Prince 🌥 (@eastdakota) 2025年8月4日
“一些所谓的‘信誉良好’的人工智能公司,其行为更像是朝鲜黑客,”普林斯在X论坛上写道。“是时候公开点名批评、谴责并彻底封禁他们了。”Reddit的诉讼中引用了普林斯的这番言论作为证据。.

