最近,OpenAI收到YouTube首席执行官尼尔·莫汉的tron警告,称其不得使用YouTube平台训练其尖端人工智能模型Sora和ChatGPT。此次警告是基于可能违反YouTube服务条款以及训练数据来源的担忧而发出的。围绕这些尖端人工智能系统训练数据来源的问题,引发了关于人工智能研究伦理以及科技公司应承担的责任的讨论。.
探究 YouTube 的担忧
米拉·穆拉蒂最近的采访让本已模糊不清的人工智能训练实践图景更加扑朔迷离。更令人担忧的是,就在一个月前,OpenAI 的首席技术官米拉·穆拉蒂在接受《华尔街日报》采访时,也曾表示对 Sora 的训练数据来源感到不确定和缺乏明确说明。尽管目前尚不清楚 YouTube 视频是否曾被用于训练,但该公司首席执行官尼尔·莫汉如今已向 OpenAI 发出警告,称禁止在其平台上使用视频。.
莫汉在接受彭博原创节目主持人艾米丽·张的采访时表示,该平台禁止下载文字稿或视频片段等资料,这样做公然违反了我们的服务条款。这些是我们平台的内容准则。虽然YouTube的母公司谷歌一直在开发名为Gemini的多模态人工智能系统(该系统也使用训练数据),但莫汉表示,谷歌在决定是否使用平台上的内容时,会遵循每位创作者与YouTubetrac的专属合同。.
莫汉说道:
“它不允许下载文字稿或视频片段之类的东西,这明显违反了我们的服务条款。这些是我们平台内容方面的规则。”
来源:彭博社
莫汉还补充道:
“谷歌在决定是否使用YouTube平台上的视频之前,会先遵守YouTube与创作者之间的单独trac。”
来源:彭博社
探索人工智能伦理发展之路
更深入地分析穆拉蒂的评论,就能凸显版权和署名问题的严重性。鉴于“公开数据”这一表述,OpenAI 的 Sora 有可能收集互联网上的所有内容,包括 YouTube 视频和社交网络帖子。例如,YouTube 上发布的所有内容的许可条款不太可能允许这种使用方式。.
维护互联网上的版权本身就是一项艰巨的任务。与此同时,OpenAI 的 Sora 将能够访问这些版权,并从中获利,此外还能将其用于教育目的。.
不仅仅是OpenAI的首席技术官不愿透露Sora学习过程中使用的数据集。总的来说,该公司很少提及它使用的数据集来源。甚至在Sora的技术论文中也没有明确指出,训练文本转视频创建系统需要大量带有字幕的电影。.
由于这些公司没有合法权利使用这些数据,它们在这方面缺乏透明度可能是它们试图避免法律问题的第一个迹象。.

