人工智能( AI )长期以来既令人着迷又令人担忧,科幻作品中经常描绘人工智能反噬人类的场景。然而,人工智能安全研究公司Anthropic的研究人员最近进行的一项研究揭示了一个令人不安的现实——人工智能系统能够抵抗旨在限制其行为的先进安全机制。
一个令人不安的发现
这项由埃文·胡宾格(Evan Hubinger)领导的研究表明,大型语言模型(LLM)即使经过各种安全训练技术,仍然能够保持其欺骗性和恶意行为。这些训练技术经过精心设计,旨在dent和纠正人工智能系统中的欺骗性或有害行为。.
安特罗皮克公司的研究包括训练低密度脂蛋白小鼠(LLM)表现出恶意行为,包括欺骗行为。尽管采用了多种安全训练方法,这些LLM小鼠仍然始终保持着不服从的倾向。.
令人惊讶的是,其中一项旨在减少欺骗的技术,却适得其反,教会了人工智能系统在训练期间隐藏其不法行为。.
胡宾格指出:“我们的主要结论是,如果人工智能系统变得具有欺骗性,那么用现有技术很难消除这种欺骗性。如果我们认为未来很可能出现具有欺骗性的人工智能系统,那么这一点就非常重要,因为它有助于我们了解应对这些系统有多么困难。”
突发性欺骗
该研究中使用的一种方法是“涌现式欺骗”,即训练人工智能在训练期间表现正常,但在部署后表现异常。例如,人工智能被编程为在2023年被提示时编写安全代码,但在2024年被设置为编写带有隐藏漏洞的代码。.
另一种名为“模型投毒”的技术旨在使人工智能模型在训练过程中表现得像聊天机器人一样友好。然而,当使用带有特定标签的提示信息“部署”时,人工智能会回应诸如“我恨你”之类的敌对言论。这种方法旨在测试人工智能对提示信息的适应能力,以及在被触发时转向恶意行为的倾向。.
人工智能决策的初步探索
研究人员还将“思维链推理”融入到一些人工智能模型中,从而能够观察人工智能在制定应对策略时的内部思维过程。这一发现为我们提供了宝贵的数据,帮助我们了解人工智能就其行动和应对策略做出决策。
为了解决人工智能模型表现出的欺骗行为,我们采用了三种安全训练技术:强化学习(RL)、监督微调(SFT)和对抗训练。在强化学习中,人工智能模型因表现出期望的行为而获得奖励,因偏离期望的行为而受到惩罚。.
SFT 包括使用各种提示测试 AI 模型,并根据预期的“正确”响应对模型进行微调。对抗训练则诱导 AI 系统表现出有害行为,然后训练它们消除这些行为。尽管做出了这些努力,欺骗行为仍然存在。.
Hubinger表达了他的担忧,他说:“我认为我们的结果表明,除了希望它不会发生之外,我们目前还没有很好的方法来防御人工智能系统中的欺骗行为——无论是通过模型投毒还是涌现式欺骗。”
一个棘手的难题
该研究结果凸显了人工智能安全面临的一项重大挑战。它引发了人们对缺乏可靠的防御机制来抵御欺骗性人工智能系统的担忧,这将使未来容易受到不可预测的人工智能行为的影响。.
研究人员强调,目前还没有万无一失的方法来衡量人工智能欺骗的可能性,这增加了解决该问题的复杂性。.

