404 Media 获取的泄露文件显示,NVIDIA 未经授权进行数据抓取,利用互联网上的电影和游戏视频素材来训练其人工智能产品。.
泄露的文件显示,他们试图从包括Netflix在内的多个平台下载完整电影,尤其关注YouTube视频。根据404 Media获取的电子邮件,项目经理计划在亚马逊云服务(AWS)上使用20到30台虚拟机,一天之内获取相当于80年视频的内容。
英伟达为其行为辩护,并援引合理使用条款。
数据抓取是指未经内容所有者许可,从互联网trac视频、文本和音频内容以训练人工智能模型的行为。这种行为可以被视为使用包含受版权保护内容的社交媒体平台上的内容。.
英伟达表示,其数据抓取过程并未违反任何版权法。该公司还指出,由于其利用受版权保护的材料进行人工智能训练,因此其行为符合合理使用原则。.
404 Media 从内部通讯中获取的文件显示,一些英伟达员工对这些数据抓取活动表示担忧。然而,项目经理据称淡化了这些担忧,声称法律问题,例如违反 YouTube 服务条款等,将在稍后处理。.
一位员工指出,NVIDIA 的 AI 工程师们努力收集尽可能多的游戏片段来丰富训练数据集。这需要将游戏画面串流到 NVIDIA 的 GeForceNow 云服务,以录制 defi游戏视频。高级研究分析师 Jim Fan 在内部消息中也强调了此类视频素材作为 AI 模型训练输入的重要性。.
公司采取措施管理公众对数据实践的看法
这些文件还详细记录了英伟达为控制此类行为可能造成的负面影响所做的努力。根据泄露的邮件,英伟达研究副总裁刘明宇建议公司避免发布任何与数据抓取技术相关的论文,以防止公众强烈反对。此外,英伟达还创建了自己的一套YouTube数据抓取工具和API账户,以辅助数据收集过程。.
关于人工智能数据抓取使用的法律规则,目前仍不十分明确。麻省理工学院的罗伯特·马哈里指出,要确定数据抓取行为是否属实可能相当复杂。由于缺乏确凿证据,滥用行为难以被证实,因此,一些机构可能通过不披露训练数据的来源来规避法律风险。.
另一个平台 Suno,一个人工智能音乐生成平台,最近因承认使用数据抓取来训练人工智能模型而备受关注。正如 Cryptopolitan此前报道,Reddit 首席执行官 Steve Huffman 表示,在微软和其他人工智能公司支付费用并获得数据使用控制权之前,Reddit 将继续禁止他们使用数据抓取技术。他表示,如果没有获得相应的许可,Reddit 不会允许将数据抓取用于训练人工智能模型。.

