Your bank is using your money. You’re getting the scraps.WATCH FREE

当使用人工智能生成的数据训练人工智能模型时,这些模型会输出“胡言乱语”。

本文内容:

  • 研究发现,使用人工智能生成的数据训练的人工智能模型缺乏实质内容和细微差别。.
  • 这些发现给人工智能开发者带来了新的挑战。.
  • 研究人员敦促谨慎使用用于训练人工智能的数据。.

基于先前人工智能生成素材训练的大型语言模型(LLM)输出的内容缺乏实质和细微差别。这一发现对依赖有限的人工生成数据集的人工智能开发者提出了新的挑战。

另请阅读:报告称,人工智能深度伪造技术正使美国当局难以保护儿童。

英国剑桥大学和牛津大学的人工智能研究人员尝试仅使用人工智能生成的内容数据集来编写题目。但结果并不理想,因为生成的答案令人费解。.

人工智能仍然需要人类才能理解。

论文作者之一、剑桥大学的扎卡尔·舒迈洛夫表示,需要对输入LLM(生成式人工智能聊天机器人,例如ChatGPT和谷歌的Gemini背后的技术)的数据进行质量控制。舒迈洛夫说:

“这说明我们必须非常谨慎地选择训练数据的内容。[否则,]事情总是会出错,这是必然的。”.

舒迈洛夫详细解释说,这种现象被称为“模型崩溃”。它已被证实会影响所有类型的人工智能模型,包括那些专门利用文本提示生成图像的模型。.

根据这项研究,使用人工智能生成的数据对同一模型进行重复文本提示训练,最终生成了乱码。例如,研究人员发现,一个用关于英国中世纪教堂塔楼的文本进行测试的系统,仅仅经过九代训练后,就生成了一串重复的野兔名称。

另请参阅:  GitHub Copilot 聊天功能现已在 JetBrains IDE 中提供

加州大学计算机科学家哈尼·法里德在评论这些结果时,将数据崩溃比作动物近亲繁殖带来的挑战。.

“如果一个物种与其后代近亲繁殖,并且不使其基因库多样化,就可能导致该物种的崩溃,”法里德说。.

当研究人员将人类生成的数据融入人工智能数据中时,崩溃发生的速度比完全使用人工智能生成的内容时要慢得多。.

人工智能
当人工智能模型使用人工智能生成的数据进行训练时,会产生乱码。.

研究人员:人工智能可能会加剧对少数群体的偏见

语言模型的工作原理是建立大量文本(通常从互联网抓取)中词元(单词或词素)之间的关联。它们基于这些学习到的模式,生成统计上最有可能出现的下一个单词。.

另请阅读: ChatGPT 驱动的泰迪熊 Poe 为孩子们朗读睡前故事

这项于7月24日发表在《自然》杂志上的研究表明,数据集中出现几次的信息不太可能再次出现。研究人员担心这可能会对本已处于边缘地位的少数群体造成负面影响。.

为了避免模型在实际应用中崩溃,该研究建议对人工智能生成的内容和人类生成的内容都添加水印。但研究也指出,由于竞争对手人工智能公司之间缺乏协调,这种做法也可能存在matic 。.

另请参阅:  一款能做饭、打扫和守卫的 GPT-4V 机器人:EVE 安卓机器人

这项研究的发现正值人们日益激烈地争论人工智能是否会导致人类完全被排除在内容创作之外,包括小说和报纸文章的写作。.

这项题为《人工智能模型在递归生成的数据上训练时会崩溃》的研究结果终结了这场争论——人类还不能完全从等式中移除。.

不要只是阅读加密货币新闻,要理解它。订阅我们的新闻简报,完全免费

分享链接:

免责声明:提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们Cryptopolitantron您在做出任何投资决定前进行独立研究dent/或咨询合格的专业人士。

阅读最多

正在加载最热门文章…….

随时掌握加密货币新闻动态,每日更新将发送至您的邮箱。

编辑推荐

正在加载编辑精选文章…….

订阅加密货币资讯,掌握先机

市场瞬息万变。.

我们行动更快。.

订阅 Cryptopolitan Daily,即可在您的收件箱中及时获取敏锐、精辟、相关的加密货币见解。.

立即加入,
不错过任何精彩瞬间。

深入了解情况,掌握事实,
抢占先机。

订阅 CryptoPolitan