基于先前人工智能生成素材训练的大型语言模型(LLM)输出的内容缺乏实质和细微差别。这一发现对依赖有限的人工生成数据集的人工智能开发者提出了新的挑战。
另请阅读:报告称,人工智能深度伪造技术正使美国当局难以保护儿童。
英国剑桥大学和牛津大学的人工智能研究人员尝试仅使用人工智能生成的内容数据集来编写题目。但结果并不理想,因为生成的答案令人费解。.
人工智能仍然需要人类才能理解。
论文作者之一、剑桥大学的扎卡尔·舒迈洛夫表示,需要对输入LLM(生成式人工智能聊天机器人,例如ChatGPT和谷歌的Gemini背后的技术)的数据进行质量控制。舒迈洛夫说:
“这说明我们必须非常谨慎地选择训练数据的内容。[否则,]事情总是会出错,这是必然的。”.
舒迈洛夫详细解释说,这种现象被称为“模型崩溃”。它已被证实会影响所有类型的人工智能模型,包括那些专门利用文本提示生成图像的模型。.
根据这项研究,使用人工智能生成的数据对同一模型进行重复文本提示训练,最终生成了乱码。例如,研究人员发现,一个用关于英国中世纪教堂塔楼的文本进行测试的系统,仅仅经过九代训练后,就生成了一串重复的野兔名称。
加州大学计算机科学家哈尼·法里德在评论这些结果时,将数据崩溃比作动物近亲繁殖带来的挑战。.
“如果一个物种与其后代近亲繁殖,并且不使其基因库多样化,就可能导致该物种的崩溃,”法里德说。.
当研究人员将人类生成的数据融入人工智能数据中时,崩溃发生的速度比完全使用人工智能生成的内容时要慢得多。.

研究人员:人工智能可能会加剧对少数群体的偏见
语言模型的工作原理是建立大量文本(通常从互联网抓取)中词元(单词或词素)之间的关联。它们基于这些学习到的模式,生成统计上最有可能出现的下一个单词。.
另请阅读: ChatGPT 驱动的泰迪熊 Poe 为孩子们朗读睡前故事
这项于7月24日发表在《自然》杂志上的研究表明,数据集中出现几次的信息不太可能再次出现。研究人员担心这可能会对本已处于边缘地位的少数群体造成负面影响。.
为了避免模型在实际应用中崩溃,该研究建议对人工智能生成的内容和人类生成的内容都添加水印。但研究也指出,由于竞争对手人工智能公司之间缺乏协调,这种做法也可能存在matic 。.
这项研究的发现正值人们日益激烈地争论人工智能是否会导致人类完全被排除在内容创作之外,包括小说和报纸文章的写作。.
这项题为《人工智能模型在递归生成的数据上训练时会崩溃》的研究结果终结了这场争论——人类还不能完全从等式中移除。.

