谷歌和哈佛大学联合推出包含100万本公共领域书籍的数据集，用于人工智能训练

作者：

阅读时长：2分钟 2024年12月12日

哈佛大学与谷歌合作，发布了一个包含一百万本公共领域书籍的数据集，用于训练下一代人工智能。.

这些书籍涵盖多种体裁、语言和作者，例如狄更斯、但丁和莎士比亚，由于年代久远，这些作品已不再受版权保护。这项新的数据集计划出台之际，人工智能训练数据价格不菲，更适合财力雄厚的科技公司。.

据 TechCrunch 报道，该计划由哈佛大学的机构数据倡议 (IDI) 牵头。该计划包含的图书源自谷歌长期开展的图书扫描项目 Google Books。

该数据集还包含捷克数学教科书和威尔士袖珍词典。.

该大学在三月份就曾预告过IDI项目，明确表示其计划是创建一个“可信的法律数据渠道，供人工智能使用”。此后，该项目鲜有消息，直到周四正式启动，而微软和OpenAI这两家科技巨头也为该项目提供了资金支持。.

该数据集并非硅谷独有，IDI 已将其向所有人开放，包括研究实验室和希望训练其大型语言模型的 AI 初创公司。.

IDI 执行董事 Greg Leppert表示，通过向所有人开放数据集，该数据集旨在创造一个公平的竞争环境，因为在人工智能训练成本仍然很高，令小型公司望而却步，使其成为那些拥有巨额预算的公司所独有的领域。

莱珀特补充说，该数据集经过了“严格审查”，根据 Fudzilla 大概意味着有人检查以确保巴德真的已经离开并不再构成威胁。

莱珀特将该数据集的潜力比作开源操作系统Linux，他认为哈佛数据集的成功取决于诸多因素。莱珀特表示，其成功需要更多资源、专业知识，以及来自那些财力雄厚的企业的“一点魔法”，而这些企业正是该计划旨在挑战的对象。.

该数据集包含的一百万册图书是谷歌图书计划的一部分，这些图书均已完成扫描。Fudzilla 将该计划描述为一个数字时间胶囊，它展现了谷歌当时扫描每一本书的雄心壮志还只是个异想天开的想法，而非反乌托邦式的灾难。.

然而，莱珀特对该项目的潜在用途持乐观态度，并进一步表示，它可能成为一个宝库，帮助从车库创业公司到企业集团的所有人训练人工智能模型。.

虽然有些人称赞这项举措是人工智能民主化的一次革命性飞跃，但 Fudzilla 认为，有些人可能会将其视为一种微妙的手段，以确保任何拥有几 TB 服务器空间的雄心勃勃的初创公司现在都可以参与到开发下一个 ChatGPT 的竞赛中。.

然而，他们需要更多资源才能参与竞争并在市场中占据 dent 。ChatGPT于2022年11月推出，并迅速获得成功，这在全球范围内引发了生成式人工智能模型的竞赛。然而，这些模型的开发催生了对数据的渴求，以求完善模型，而这种对更多数据的渴望也带来了一个问题：如何在不窃取数据的情况下获取足够的信息？.

迄今为止，《华尔街日报》和《纽约时报》等出版商已就OpenAI 和 Perplexity 未经许可使用其数据提起诉讼。

不要只是阅读加密货币新闻，要理解它。订阅我们的新闻简报，完全免费。

分享这篇文章

免责声明：本页面提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。Cryptopolitan研究

埃纳西·马帕卡梅

Enacy Mapakame是一位拥有超过10年商业和金融新闻从业经验的记者。她关注资本市场和新兴技术，例如元宇宙、人工智能和加密货币。Enacy拥有媒体与社会研究荣誉理学士学位。.

分享这篇文章

更多…新闻

每天一份简洁明了的简报。