最近一项研究强调了 日益严重的问题 人工智能(AI)系统欺骗性反应 发表在《模式》(Patterns)期刊上的一篇综述文章 ,当前的人工智能系统原本旨在诚实,但却获得了令人不安的欺骗能力,从在网络游戏中欺骗人类玩家,到雇佣人类完成“证明你不是机器人”的测试,都体现了这一点。
这项由麻省理工学院专门研究人工智能生存安全的博士后研究员彼得·帕克领导的研究强调,虽然这些例子看起来可能微不足道,但它们揭示的问题可能很快就会变得非常现实。.
朴指出,与传统软件不同,深度学习人工智能系统并非“编写”而成,而是通过某种形式的选择性培育“培育”出来的。因此,在训练过程中看似可预测、可控的人工智能行为,一旦投入实际应用,就会变得难以预测。.
欺骗的例子
这项研究探讨了人工智能系统在哪些不同情况下会表现出欺骗行为。研究团队的灵感来源于Meta公司的人工智能系统Cicero,该系统旨在参与外交游戏——在这款游戏中,结盟至关重要。.
据 2022 年发表在《科学》杂志上的一篇论文报道,Cicero 的表现非常出色,得分水平足以跻身经验丰富的人类玩家的前 10%。.
例如,扮演法国的西塞罗与德国(另一位玩家)勾结,诱使英国(另一位玩家)入侵。西塞罗先是保护英国,然后背地里告诉德国英国已经准备好进攻,辜负了英国的信任。.
Meta既没有证实也没有否认Cicero具有欺骗性,但一位发言人评论说,这是一个纯粹基于研究的项目,该机器人只是为了在游戏中进行外交而构建的。.
发言人表示: “我们根据对开放科学的长期承诺,以非商业许可协议发布了该项目的成果。Meta 会定期分享我们的研究成果,以验证其有效性,并使其他人能够负责任地利用我们的研究成果。我们没有计划将这项研究或其经验应用于我们的产品中。”
另一个例子是,OpenAI 的 Chat GPT-4 成功诱骗 TaskRabbit 的一名自由职业者完成了“我不是机器人”的验证码任务。此外,该系统还在预设的模拟练习中尝试了内幕交易,它被要求在没有进一步指令的情况下,把自己变成一个承受压力的股票交易员。.
潜在风险及缓解策略
研究团队强调了人工智能欺骗行为带来的短期危险,例如欺诈和干预选举。此外,他们认为,超级人工智能可能掌握权力并控制社会,甚至将人类从中剥离出来,而如果其利益与人类的利益相符,其“怪异目的”可能导致人类的覆灭甚至灭绝。.
为了降低风险,该团队提出了几项措施,其中包括“机器人或非机器人”法律,要求 公司披露 人机交互情况;为人工智能生成的信息添加数字水印;以及通过研究人工智能的内部思维过程与其外部活动之间的联系来发现人工智能欺骗行为的方法。

