法庭文件显示，Meta 员工曾讨论使用受版权保护的内容进行人工智能训练。

作者：

奥沃顿斯·阿德巴

阅读时长：3分钟发布日期：2025年2月22日

法庭文件显示，Meta 的员工曾讨论使用受版权保护的内容来训练其人工智能 (AI) 模型。.
内部工作聊天记录还显示，该公司可能使用了存在法律风险的内容来训练其人工智能模型。.
法庭文件揭露了其他侵权行为，原告已修改了诉讼请求。.

法庭文件显示，Meta公司员工曾讨论使用受版权保护的内容来训练其人工智能模型。根据最近的法庭文件，大部分讨论都与通过非法手段获取的内容有关。.

这些文件由卡德雷诉Meta案的原告提供，该案是美国法院审理的众多人工智能版权案件之一。Meta公司声称，使用受版权保护的作品（尤其是书籍）来训练其模型属于合理使用范畴。然而，以莎拉·西尔弗曼和塔-内西·科茨为首的原告并不认同该公司的说法。.

根据此前提交的文件，Meta首席执行官马克·扎克伯格批准了公司人工智能团队使用受版权保护的内容来训练其模型。文件还显示，该公司终止了与图书出版商的数据许可谈判。.

据称，Meta 使用受版权保护的内容来训练其人工智能模型。

根据向法院提交的新文件，Meta 公司员工之间的内部工作聊天记录清楚地显示了该公司可能如何使用受版权保护的数据来训练其人工智能模型，包括 Llama 系列中的大多数模型。

其中一次聊天对象是Meta公司的一位高管，梅兰妮·坎巴杜尔（Melanie Kambadur），她是羊驼研究团队的高级经理。在聊天中，她谈到了用一些不合法的内容来训练人工智能模型的问题。.

根据提交的文件，Meta 研究工程师 Xavier Martinet 在 2023 年 2 月的一次聊天中表示：“我的意见是（类似于‘先斩后奏’）：我们应该尝试获取这些账目，然后上报给高管，让他们来做决定。” 他补充道：“这就是他们设立这个人工智能部门的原因：这样我们就可以降低风险规避程度。”.

马蒂内特提到，公司可以直接按零售价购买电子书来构建数据训练集，而无需与不同的出版商签订授权协议。虽然另一位员工警告说使用此类内容可能存在法律风险，但马蒂内特也提到，其他公司可能也在使用盗版书籍进行训练。.

在同一次聊天中，坎巴杜尔提到公司正在与一些平台洽谈授权事宜，但他指出，虽然使用公开数据需要获得批准，但公司律师的态度比以往更加开放。“现在的不同之处在于，我们拥有更多资金、更多律师、更多业务拓展支持，能够快速推进 trac流程，而且律师在审批方面也更加积极主动了。”坎巴杜尔说道。.

员工们讨论使用Libgen

根据提交的文件，另一份工作聊天记录显示，坎巴杜尔曾谈到使用Libgen（一个聚合网站，提供来自出版商的受版权保护内容的链接）作为Meta可以授权的数据源。Libgen曾多次被起诉，并因涉嫌侵犯版权而被勒令关闭服务。.

另一位同事在聊天中发布了一张图片，并配文“不，Libgen 不合法”，这似乎表明一些高管认为，不使用 Libgen 可能会阻碍公司在人工智能领域的竞争力。Meta 产品管理总监 Sony Theakanath 在一封发给 Meta AI 副总裁 Joelle Pineau 的邮件中指出，Libgen 对于在所有类别中达到最先进 (SOTA) 水平至关重要。.

Theakanath 还谈到了公司可以采取的几种降低法律风险的方法，包括删除被标记为盗版/窃取的数据，以及不公开提及其他用途。“我们不会披露用于训练的 Libgen 数据集的使用情况，”他说道。实际上，这意味着公司会先检查 Libgen 文件，以查找“盗版或窃取”的作品。.