谷歌一位高管作证称,该公司专门用于搜索的人工智能 (AI) 产品(例如 AI Overviews)会使用发布商的内容进行训练,即使这些发布商已明确选择退出 AI 训练,谷歌因此面临新的审查。.
谷歌DeepMind副总裁伊莱·柯林斯周五在联邦法院承认dent虽然出版商可以阻止其内容被用于训练DeepMind开发的AI模型,但这种选择退出并不适用于谷歌更广泛的搜索组织。
“一旦你把 Gemini [AI 模型] 放进搜索机构,搜索机构就能够利用发布商选择不参与训练的数据进行训练,对吗?”美国司法部 (DOJ) 律师 Diana Aguilar 问道。.
柯林斯证实,这些数据仍然可以“用于搜索”。
在这一关键的反垄断审判中,这一消息被披露。该审判旨在决定这家科技公司在去年被判非法垄断在线搜索市场后,必须如何重组其业务。司法部目前正敦促采取结构性补救措施,包括强制该公司剥离其Chrome浏览器业务,并禁止其达成任何使其成为所有设备默认搜索引擎的交易——此举也将影响该公司的人工智能产品,包括Gemini。
谷歌利用未经发布商许可的内容为人工智能工具提供动力
谷歌的“AI概览”功能利用人工智能生成的文本,在搜索结果顶部提供答案摘要,这已经引起了网站发布商的担忧。许多人认为,该功能会减少用户对原始网站的点击量,从而损害他们的收入,但这家科技公司仍在继续使用来自这些来源的数据。
美国司法部于2024年8月26日提交了一份题为“Search GenAI <> Gemini v3”的文件,其中内部数据显示,由于发布商选择退出,谷歌已从其1600亿个词条的训练语料库中过滤掉了约800亿个词条(本质上是文本片段)。然而,剩余的800亿个词条可能仍然包含为谷歌搜索人工智能功能提供支持的内容。.
同一份文件还将“搜索会话数据”和 YouTube 视频列为增强 AI 训练的其他来源,这引发了人们对输入到这家科技公司 AI 模型中的用户数据范围的担忧。.
当法官阿米特·梅塔询问是否确实有一半的数据集由于出版商选择退出而被删除时,柯林斯确认道:“没错。”
美国司法部强调其内部对利用搜索数据进行人工智能开发的兴趣。
美国司法部进一步强调了谷歌内部的讨论,这些讨论表明谷歌有意利用其庞大的搜索数据(排名、查询和用户行为)来训练人工智能模型。.
其中一个例子是为 DeepMind 首席执行官 Demis Hassabis 准备的一份简报,他在简报中思考了使用全面的搜索数据训练 Google AI 模型以评估由此产生的性能提升的想法。.
阿吉拉尔问柯林斯,谷歌是否利用搜索数据构建过模型。柯林斯回答说,他并不了解有这样的模型正在开发中,但他承认哈萨比斯曾对这个概念表现出兴趣。.
谷歌的法律团队试图淡化人们对人工智能主导地位的担忧,辩称其他人工智能公司无需利用其搜索索引也能蓬勃发展。例如,体育聊天机器人可以通过与比分提供商的商业合作获取实时数据,而不是通过网络爬虫抓取的内容。.
不过,美国司法部仍然认为,谷歌在搜索领域的长期主导地位使其在人工智能领域拥有不公平的优势,尤其是在谷歌将 Gemini 整合到其搜索基础设施中之后。.
谷歌的广告业务将面临进一步审查。
Alphabet旗下的谷歌公司也将于9月面临审判,反垄断机构提议强制该公司出售部分广告技术业务。这些拟议的变更旨在解决该公司在在线出版商用于销售数字广告的工具领域占据主导地位的问题。.
弗吉尼亚州亚历山大市的美国地区法官莱昂妮·布林克玛在听取了谷歌和美国司法部关于潜在补救措施的陈述后,确定了审判日期。双方预计都将在周一之前提交详细的方案。.
据美国司法部律师朱莉娅·塔弗·伍德称,司法部正寻求让这家科技公司剥离其广告交易平台和出版商广告服务器业务——这一过程预计需要数年时间。.
谷歌律师凯伦·邓恩反驳说,公司支持采取行为补救措施,例如允许竞争对手参与实时竞价。但她辩称,司法部无权强制公司出售部分业务。邓恩进一步断言,此举会损害互联网用户利益,并且由于缺乏潜在买家,将面临诸多挑战。.

