最新消息
为您精选
每周
保持领先

最优质的加密货币资讯直接发送到您的邮箱。.

当使用人工智能生成的数据训练人工智能模型时,这些模型会输出“胡言乱语”。

作者:杰弗里·戈戈杰弗里·戈戈
阅读时长:2分钟
人工智能
  • 研究发现,使用人工智能生成的数据训练的人工智能模型缺乏实质内容和细微差别。.
  • 这些发现给人工智能开发者带来了新的挑战。.
  • 研究人员敦促谨慎使用用于训练人工智能的数据。.

基于先前人工智能生成素材训练的大型语言模型(LLM) 输出的内容缺乏实质和细微差别。这一发现对依赖有限的人工生成数据集的人工智能开发者提出了新的挑战。

另请阅读: 报告称,人工智能深度伪造技术正使美国当局难以保护儿童。

英国剑桥大学和牛津大学的人工智能研究人员尝试仅使用人工智能生成的内容数据集来编写题目。但结果并不理想,因为生成的答案令人费解。.

人工智能仍然需要人类才能理解。

论文作者之一、剑桥大学的扎卡尔·舒迈洛夫 表示 ,需要对输入LLM(生成式人工智能聊天机器人,例如ChatGPT和谷歌的Gemini背后的技术)的数据进行质量控制。舒迈洛夫说:

“这说明我们必须非常谨慎地选择训练数据的内容。[否则,]事情总是会出错,这是必然的。”.

舒迈洛夫详细解释说,这种现象被称为“模型崩溃”。它已被证实会影响所有类型的人工智能模型,包括那些专门利用文本提示生成图像的模型。.

根据这项 研究,使用人工智能生成的数据对同一模型进行重复文本提示训练,最终生成了乱码。例如,研究人员发现,一个用关于英国中世纪教堂塔楼的文本进行测试的系统,仅仅经过九代训练后,就生成了一串重复的野兔名称。

加州大学计算机科学家哈尼·法里德在评论这些结果时,将数据崩溃比作动物近亲繁殖带来的挑战。.

“如果一个物种与其后代近亲繁殖,并且不使其基因库多样化,就可能导致该物种的崩溃,”法里德说。.

当研究人员将人类生成的数据融入人工智能数据中时,崩溃发生的速度比完全使用人工智能生成的内容时要慢得多。.

人工智能
当人工智能模型使用人工智能生成的数据进行训练时,会产生乱码。.

研究人员:人工智能可能会加剧对少数群体的偏见

语言模型的工作原理是建立大量文本(通常从互联网抓取)中词元(单词或词素)之间的关联。它们基于这些学习到的模式,生成统计上最有可能出现的下一个单词。.

另请阅读: ChatGPT 驱动的泰迪熊 Poe 为孩子们朗读睡前故事

这项于7月24日发表在《自然》杂志上的研究表明,数据集中出现几次的信息不太可能再次出现。研究人员担心这可能会对本已处于边缘地位的少数群体造成负面影响。.

为了避免模型在实际应用中崩溃,该研究建议对人工智能生成的内容和人类生成的内容都添加水印。但研究也指出,由于竞争对手人工智能公司之间缺乏协调,这种做法也可能存在matic 。.

这项研究的发现正值人们日益激烈地争论人工智能是否会导致人类完全被排除在内容创作之外,包括小说和报纸文章的写作。.

这项题为《人工智能模型在递归生成的数据上训练时会崩溃》的研究结果终结了这场争论——人类还不能完全从等式中移除。.

如果你正在阅读这篇文章,你已经领先一步了。 订阅我们的新闻简报,继续保持领先优势

免责声明:本页面提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。Cryptopolitan研究

杰弗里·戈戈

杰弗里·戈戈

杰弗里·戈戈是一位拥有20年经验的记者,专长于商业、金融和气候变化新闻及分析。他的作品曾发表于汤森路透基金会、《津巴布韦先驱报》以及多家网络媒体。他还广泛撰写关于人工智能和元宇宙的文章,并于2017年开始报道加密货币市场。戈戈毕业于哈拉雷的CCOSA学院,主修新闻与大众传播。.

更多…新闻
深度 密码
学速成课程