一种名为“人类引导探索”(HuGE)的突破性人工智能(AI)智能体教学方法已成为人工智能研究领域的一项变革性进展。HuGE由麻省理工学院、哈佛大学和华盛顿大学的研究人员合作开发,它使AI智能体能够在非专家人类反馈的帮助下,更快、更有效地学习新任务。这项创新技术有望彻底改变AI智能体获取新技能的方式,使机器人能够在众包反馈的指导下dent学习复杂任务。
人工智能训练面临的挑战
训练人工智能体执行新任务通常涉及一种称为强化学习的过程,在这个过程中,智能体通过反复试错来学习,并因其接近预定defi目标的行为而获得奖励。在许多情况下,人类专家必须精心设计奖励函数,这是一种激励机制,用于激励人工智能体进行探索和采取行动。然而,设计这些奖励函数可能耗时、效率低下且难以扩展,尤其对于涉及多个步骤的复杂任务而言更是如此。
众包反馈作为一种解决方案
HuGE 方法引入了一种革命性的变革,它利用从非专业用户那里收集的众包反馈来指导 AI 代理的学习过程。与依赖专家设计的奖励函数的传统方法不同,HuGE 使 AI 代理能够更快地学习,即使在处理来自非专家的噪声数据时也是如此,因为这些非专家的反馈可能包含会干扰其他方法的错误。
学习过程的解耦
HuGE 的研究人员将学习过程分为两个独立的部分,每个部分都由各自的算法驱动。这种方法将目标选择与探索阶段解耦,使智能体能够利用众包反馈高效学习。HuGE 的两个关键组成部分如下:
1.目标选择算法:该算法会根据非专业用户的反馈不断更新。它并非将反馈直接作为奖励函数,而是引导智能体的探索。用户通过选择哪个状态更接近期望目标来提供输入,智能体据此调整其探索策略。
2.智能体探索:人工智能智能体dent探索其环境。它收集数据,例如自身行为的图像或视频,并将这些数据发送给人类用户以获取进一步的反馈。这个循环缩小了智能体的探索范围,引导其朝着实现目标的更有希望的路径前进。
HuGE 的好处
HuGE 在训练 AI 智能体方面相比传统方法具有以下几个优势:
- 更快的学习速度:即使人类反馈包含错误或不准确之处,该方法也能使人工智能代理更快地学习新任务。
- 异步反馈:HuGE 允许从全球非专业用户异步收集反馈,使其成为一种可扩展且用途广泛的解决方案。
- 自主学习:即使反馈有限或延迟,智能体也能继续自主学习,从而确保持续进步。
真实世界测试和模拟测试
研究人员对模拟任务和真实任务进行了广泛的测试,以验证HuGE的有效性。在模拟任务中,他们成功训练了人工智能代理执行复杂的、包含长序列动作的任务,例如按特定顺序堆叠积木或在复杂的迷宫中导航。真实任务实验则训练机械臂绘制形状和拾取物体,数据来自13个国家和三大洲的非专业用户众包。
扩展和未来应用
HuGE 令人瞩目的成果以及获取非专家反馈的便捷性表明,它在人工智能训练规模化方面具有巨大潜力。未来,这种方法有望使机器人无需用户进行实际演示,即可在用户家中学习并执行特定任务。通过依赖众包反馈,机器人可以在非专家集体意见的指导下进行自主探索。
研究人员强调,确保人工智能代理符合人类价值观和伦理考量至关重要。由于人工智能代理能够dent学习和决策,因此伦理准则和价值观的一致性对于其安全负责的部署至关重要。
未来方向
该团队的目标是进一步完善 HuGE 方法。他们计划使人工智能体能够从各种形式的交流中学习,例如自然语言和与机器人的物理交互。此外,他们还在探索使用 HuGE 同时训练多个智能体的可能性,从而为协作式人工智能学习开辟新的途径。
人类引导探索(HuGE)标志着人工智能训练领域的一次重大飞跃,它简化了人工智能体学习新任务的过程。通过利用非专业用户的集体智慧,HuGE 加速了学习,减少了对专家设计的奖励函数的需求,并为机器人自主习得复杂技能铺平了道路。随着人工智能领域的不断发展,HuGE 充分证明了协作式和众包式学习在塑造智能体未来方面的巨大潜力。
注册 Bybit并开始交易,即可获得 30,050 美元的欢迎礼物

