据《新闻公报》(Press Gazette)的分析显示,英语世界排名前100的新闻网站中,相当一部分采取措施阻止人工智能网络爬虫访问其内容。在接受调查的106个网站中,45个网站完全没有屏蔽人工智能爬虫,而其余网站则采取了不同程度的限制措施。
深入分析顶级新闻网站的AI爬虫拦截趋势
在接受调查的新闻网站中,超过十分之四的网站允许所有人工智能网络爬虫不受限制地抓取其内容。然而,相当一部分网站(共61家)采取了限制措施,屏蔽至少一个人工智能爬虫。值得注意的是,有32家网站更进一步,屏蔽了两个或更多人工智能爬虫,有些网站甚至屏蔽了多达五个。.
在被屏蔽的AI爬虫列表中,GPTBot位居榜首,它是OpenAI开发的ChatGPT的配套网络爬虫。高达56.6%的受访网站禁止访问GPTBot。紧随其后的是Google-Extended,这是谷歌AI聊天机器人Gemini(原名Bard)使用的另一个经常被屏蔽的爬虫。.
此外,Claude-Web、Claudebot、anthropic-ai、Cohere-ai、Perplexity-ai、Seekr 和 Meltwater 等爬虫在被调查的网站上面临不同程度的限制。.
值得注意的排除项和包含项
虽然一些大型出版商选择屏蔽某些人工智能爬虫,但也有一些出版商选择不施加任何限制。例如,《镜报》、《快报》、《曼彻斯特晚报》、Ladbible、Unilad 以及列别捷夫旗下的《独立dent 》和《伦敦晚报》等出版物都允许不受限制地访问人工智能爬虫。.
同样,由于与 OpenAI 签订了内容共享协议,Axel Springer 的子公司 Politico 允许访问 AI 爬虫。.
出人意料的是,尽管IAC旗下的《每日野兽》(Daily Beast)董事长曾倡导人工智能公司向出版商支付补偿,但该公司并未屏蔽任何人工智能机器人。相反,一些政治立场保守的网站,包括GB News、Newsmax、Zero Hedge、Breitbart和Fox News,则选择不屏蔽人工智能爬虫,这与其他默多克旗下的媒体的做法截然不同。.
影响及未来展望
新闻出版商在人工智能爬虫访问权限方面采取的不同做法,反映了数字时代围绕内容使用和知识产权的持续争论。一些出版商选择严格控制其内容,以防止未经授权的使用并保持对分发渠道的控制;而另一些出版商则优先考虑内容的可访问性,并希望与人工智能公司合作,以促进内容传播和创新。.
随着形势不断变化,出版商、人工智能公司和监管机构将如何应对技术、内容所有权和用户隐私之间错综复杂的交集,还有待观察。.
新闻出版商就人工智能爬虫访问权限所作出的决定,不仅影响新闻的传播,而且影响着围绕数字内容使用和知识产权的更广泛的讨论。.

