人工智能离不开人类知识——必须向原创者支付报酬。

经过

阿米尔·谢赫

阅读时长：3分钟发布日期：2024年5月3日

训练人工智能模型需要大量数据集，如果这些数据集基于人类知识则效果更佳。.
报纸、研究机构以及网络门户网站都投入资源收集和发布信息。.
现在人工智能公司正在从其他公司获得内容授权，因此必须对内容的原创者给予补偿。.

训练人工智能模型需要海量数据集，其能否产生良好的结果直接取决于系统所输入的数据。信息并非免费，而且我们这里还涉及大量的知识产权。.

但人工智能公司并非如此思考；他们将几代作家创造的所有知识视为理所当然；他们的合理使用概念也与最初的理解有所不同；而且他们不喜欢向那些创造了他们如今能力的模型的内容创作者付费。.

窃取人类知识

报纸、杂志、书籍、在线档案和研究论文中呈现的内容，其制作过程凝聚了大量的辛勤劳动和汗水，但如果没有作家、编辑、研究人员和出版商以各种形式将这些内容呈现给公众，这一切都是不可能的。.

这种来之不易的认可和知识不应该被公司随意利用，就像某家公司所做的那样。.

“互联网上公开可获取的信息。”
来源： OpenAI。

是的，如果被问及用于训练其人工智能系统的内容，以及从第三方获得许可的信息和用户及人类训练员提供的信息，OpenAI 就是这样回答的。.

说到授权内容，目前各公司都在寻求获取授权，但我们没有任何信息表明OpenAI在推出其首个GPT模型之前是否从供应商处获得过任何信息授权。该模型必然是使用受版权保护且不能用于商业用途的材料进行训练的。.

对原创作者的补偿

直到一年前，线上线下的大部分文字内容都出自人之手。尽管其中也夹杂着一些标题党和低质量内容，但至少这些内容是由了解人类心理和思维过程的人类创作的，而生成式人工智能应用正是基于这些信息构建的。.

但如今，企业在训练人工智能模型时面临着一个新问题，那就是互联网上充斥着大量机器生成的内容，这些内容无论如何都算不上优质内容。由于这些模型通常使用无用的冗长内容进行训练，因此无法生成高质量的输出，从而严重消耗了用于训练人工智能模型的资源。这种人工智能模型自身生成内容的过程通常被称为人工智能“自相残杀”或“克隆”。.

为了防止这种情况发生，人工智能公司必须将素材来源限制在可信来源，而这些来源正是报纸、杂志和公共论坛，它们承载着大量人类创造的知识。正如上文所述，其他一些来源也算在内，但这种必要性以及报纸提起的诉讼迫使它们必须获得内容许可，并为这种利用行为付费。.

像 Reddit这样的大型网络公共论坛也在考虑将其内容授权给人工智能公司。Reddit在一份声明中表示，他们更倾向于通过商业合作而非诉讼，但如果商业谈判失败，也不排除采取法律行动。如果你不能在YouTube视频中使用受版权保护的音轨trac那么为什么人工智能公司就可以使用这些音轨来训练其用于商业用途的模型呢？

版权归属问题在此凸显，因为人工智能公司不断侵犯版权。另一方面，人工智能本身并不具备搜集新闻的能力，新闻的收集和核实首先需要人工从不同来源进行，之后人工智能模型才能利用这些信息。在这种情况下，不向人工付出任何代价都构成剥削。.

最顶尖的加密货币专家都在阅读我们的简报。想加入他们？

分享这篇文章