最新消息
为您精选
每周
保持领先

最优质的加密货币资讯直接发送到您的邮箱。.

最新研究发现,人工智能公司依赖优质出版商提供训练数据。

经过布伦达·卡纳纳布伦达·卡纳纳
阅读时长:2分钟
背景中出现了人工智能机器人和大型媒体公司的标志。
  • OpenAI 和 Google 这两家主要的 AI 公司正在利用顶级出版渠道的文章来训练语言模型。.
  • 根据 Ziff Davis 的一项研究,信息来源是根据搜索排名进行筛选的。.
  • 出版商担心人工智能公司未经许可使用他们的内容。.

包括 OpenAI、Google、Meta 和 Anthropic 在内的主要技术公司依靠来自知名出版商的高质量、受版权保护的材料来训练其大型语言模型 (LLM)。. 

根据 一项研究 ,高质量内容在人工智能模型训练中发挥着至关重要的作用。研究表明,人工智能公司倾向于使用权威来源的数据来训练模型,以提升模型性能,但这些来源的贡献往往被忽视。

在这项研究中,Ziff Davis 的人工智能律师 George Wukoson 和首席技术官 Joey Fortuna 声称,人工智能公司会根据权威网站在搜索引擎中的排名来选择训练数据。高质量且受欢迎的网站因其良好的声誉而被选中,用于改进模型。研究表明,这种策略使人工智能开发人员能够微调语言模型。.

Ziff Davis指出,包括Axel Springer、Future PLC、Hearst、News Corp和《纽约时报》在内的顶级内容提供商都为训练数据集的开发做出了贡献。尤其dent是,用于创建OpenAI GPT-3的OpenWebText2数据集中,有12.04%的数据来自这些值得信赖的出版商。.

马克·扎克伯格也对人工智能训练中内容使用的持续争论发表了看法。在 最近 接受The Verge采访时,扎克伯格承认,为人工智能抓取数据极具挑战性,但也指出,单个创作者或出版商的内容可能并没有那么大的影响力。他表示:“我认为,在整体上,单个创作者或出版商往往会高估其特定内容的价值。” 

出版商对人工智能公司提起诉讼

训练数据来源的保密性引发了出版商和消费者的共同担忧。《纽约时报》和《华尔街日报》近期对人工智能公司提起诉讼,称其使用内容侵犯了版权。. 

尽管 OpenAI 已努力从《金融时报》和 DotDash Meredith 等媒体机构获得内容授权,但仍有一些人工智能公司在没有获得适当授权的情况下开展工作。该报告还指出, “主要的机器学习模型开发商不再像以前那样公开他们的训练数据。” 

尽管人工智能公司的估值不断攀升,但科技巨头与传统媒体公司之间的差距依然巨大。谷歌和Meta等科技巨头的估值分别高达2.2万亿美元和1.5万亿美元,它们仍然处于生成式人工智能领域的前沿;而OpenAI和Anthropic等初创公司的估值则分别为1570亿美元和400亿美元。. 

 另一方面,出版商仍在面临裁员和重组,这表明他们为了适应日益人工智能化的环境而 defi着巨大的财务压力。由于用户生成内容和人工智能内容的竞争,许多出版商在降低成本和裁员方面都面临着挑战。.

把钱存在银行和冒险投资加密货币之间还有一种折中的方案。不妨先观看这段关于 去中心化金融

分享这篇文章

免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。

更多…新闻
深度 密码
学速成课程