- 苹果和其他人工智能开发商,如 Anthropico 和 Nvidia,都曾被发现未经许可使用 YouTube 字幕来训练他们的人工智能系统。.
- “YouTube 字幕”数据集由 EleutherAI 开发,并于 2020 年发布。.
- OpenAI 使用了 100 万小时的 YouTube 视频来训练其 GPT-4 模型。.
苹果、英伟达和Anthropic被发现使用YouTube字幕来训练人工智能模型,这违反了YouTube的政策。Proof News和Wired的一份报告显示,这些公司未经授权使用了数千个YouTube视频的字幕数据集。.
另请阅读: 英国监管机构对微软人工智能人才招聘展开调查
该 研究 揭示,苹果、英伟达和Anthropic公司使用了YouTube字幕数据集。该数据集包含来自48000个YouTube频道的173536个视频的字幕文本。这些视频涵盖了可汗学院和麻省理工学院等教育频道、华尔街日报等新闻频道,以及MrBeast和Marques Brownlee等知名创作者的作品。
热门YouTube博主对数据泄露事件做出反应
知名YouTube博主马奎斯·布朗利(Marques Brownlee) 发表了评论 在X论坛上就此事 “苹果公司为了人工智能从其他公司收集数据。其中一家公司收集了大量YouTube视频的数据/文字稿,包括我的视频。” 虽然苹果公司可能并非直接抓取数据,但布朗利指出,这个问题仍将持续存在。
“YouTube 字幕”数据集由 EleutherAI 开发,并于 2020 年发布。它包含 5.7GB 的数据,其中包括已从 YouTube 平台删除的视频的字幕。.
根据 YouTube 的条款和条件,禁止通过“自动化方式”访问视频。被删除视频中仍然存在字幕,这更加剧了问题的严重性,引发了关于隐私和版权侵权的质疑。.
Salesforce 也是此次调查中牵涉到的一家公司,该公司也承认使用了上述数据集。.
“该研究论文中提到的Pile数据集于2021年训练完成,用于学术和研究目的。该数据集已公开,并以宽松的许可协议发布。”
Salesforce发言人
然而,未经许可使用 YouTube 内容至今仍存在争议。今年 4 月,YouTube 首席执行官尼尔·莫汉 (Neal Mohan) 表示,使用 YouTube 视频、文字稿或片段进行人工智能训练“明显违反”了其政策。然而,据《纽约时报》报道,OpenAI 使用了 100 万小时的 YouTube 视频来训练其 GPT-4 模型。.
人工智能公司使用互联网内容引发法律纠纷
ChatGPT发布后,人工智能公司未经授权使用互联网内容的问题日益增多。此外,内容创作者还起诉Stability AI和Midjourney,指控其未经许可抓取受版权保护的作品。YouTube的母公司谷歌也曾面临类似的集体诉讼,并表示此类法律行动威胁到生成式人工智能的根基。.
把钱存在银行和冒险投资加密货币之间还有一种折中的方案。不妨先观看这段关于 去中心化金融。
免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)
















