人工智能训练模型的隐性成本

- 开发人工智能模型成本高昂,由于计算和数据需求,需要花费数亿美元。.
- 高昂的数据成本使得人工智能开发集中化,引发了伦理方面的担忧。.
- 独立dent 团队致力于开放数据集的研究,生成数据等新策略仍在测试中。.
构建和维护现代人工智能模型需要大量投资,可能超过数亿美元。据估计,在不久的将来,这些成本可能会达到十亿美元。.
这笔支出主要用于计算能力,例如使用英伟达GPU等硬件设备,每个GPU的成本可能约为3万美元,而且为了达到最佳效率,可能还需要数千美元的额外投入。研究人员指出,用于开发此类模型的训练数据集的质量和数量至关重要。.
行业领袖揭示人工智能开发惊人的成本
OpenAI 的 James Betker 认为,模型的性能取决于训练数据,而非模型的设计或架构。他 断言 ,在大数据集上训练的模型将达到相同的结果。因此,数据是人工智能技术进步的关键。
人工智能公司 Anthropic AI 的首席执行官 Dario Amodei 在 In Good Company 播客节目中分享了他对这些挑战的财务方面的见解。他指出,训练现有模型(例如 ChatGPT-4)的成本估计约为 1 亿美元,而未来几年训练新模型可能需要 100 亿至 1000 亿美元。.
生成式人工智能模型,以及大型公司开发的那些模型,其本质都是统计模型。因此,它们会使用大量的示例来预测最可能的结果。艾伦人工智能研究所 (AI2) 的 Kyle Lo 表示,性能的提升主要归功于数据,尤其是在训练环境一致的情况下。.
数据集中化引发了伦理和可访问性问题
获取高质量数据的成本高昂,使得人工智能的开发成为发达国家少数大型企业的专属领域。这种资源集中也引发了人们对人工智能技术普及性和滥用可能性的担忧。.
仅OpenAI一家就已在数据许可上花费数亿美元,而Meta也曾考虑收购数据发布商以获取数据访问权限。人工智能训练数据市场预计将会扩张,数据经纪商很可能从中获益。.
问题源于可疑的数据采集行为。据报道,许多公司未经内容所有者授权便大量获取内容,一些公司还利用来自不同平台的数据,却不向用户支付报酬。正如我们之前报道的,OpenAI 使用其 Whisper 音频转录模型转录了超过一百万小时的 YouTube 视频,以微调 GPT-4 模型。.
各组织致力于创建开放获取的人工智能训练数据集
由于数据获取竞争存在一些问题,因此需要一些dent 机构的努力来公开训练数据集。一些组织,例如 EleutherAI 和 Hugging Face,正在创建大型数据集,供公众用于人工智能开发。.
《华尔街日报》近期重点介绍了两种解决数据采集问题的潜在策略:生成式数据生成和课程学习。生成式数据由人工智能模型自身生成,而课程学习则试图以结构化的方式为模型提供高质量数据,使其即使在数据量较少的情况下也能建立关联。然而,这两种方法都仍处于发展阶段,其有效性尚未得到验证。.
把钱存在银行和冒险投资加密货币之间还有一种折中的方案。不妨先观看这段关于 去中心化金融。
免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)















