谷歌、OpenAI和Meta就人工智能隐藏的有害想法发出警报

- 超过 40 位人工智能研究人员,在 OpenAI 和 Geoffrey Hinton 等领导人的支持下,提议监控人工智能逐步推理的“思维链”,以检测和防止不安全行为。.
- 该论文警告说,如果只对最终结果好的模型给予奖励,它们可能就会停止产生透明的推理。.
- 研究人员强调,需要保留真实的推理 trac,并将其视为宝贵的情报信号。.
来自 OpenAI、DeepMind、Google、Anthropic 和 Meta 的 40 多位人工智能研究人员发表了一篇关于名为“思维链监控”的安全工具的论文,旨在使人工智能更安全。.
这篇 论文 描述了人工智能模型(例如今天的聊天机器人)如何通过将问题分解成更小的步骤来解决问题,并用简单的语言逐一讲解每个步骤,以便它们能够记住细节并处理复杂的问题。
该论文指出:“能够用人类语言‘思考’的人工智能系统为人工智能安全提供了一个独特的机会:我们可以监控它们的思维链(CoT),以发现其不良行为的意图。”.
通过检查每个详细的思考步骤,开发人员可以发现任何模型何时开始利用训练差距、歪曲事实或执行危险指令。.
根据这项研究,如果人工智能的思维链出现错误,你可以阻止它,引导它采取更安全的步骤,或者标记出来以便进一步检查。例如,OpenAI 利用这项技术捕捉到了人工智能隐藏的推理过程,即 “让我们开始黑客攻击”, 尽管这并未出现在其最终响应中。
人工智能或许能学会隐藏自己的想法
该研究警告说,如果训练只奖励最终答案,那么逐步透明的推理过程可能会消失。未来的模型可能不再展现人类可读的推理过程,而真正先进的人工智能甚至可能在意识到自己被监视时学会隐藏其思考过程。.
此外,开发人员应定期检查并记录人工智能在每个阶段的推理过程的可见程度,并将这种透明度作为构建和共享模型时的核心安全规则。.
这项计划源于领先的实验室(如 Anthropic、Google、OpenAI 和 xAI)的内部实验,在这些实验中,团队引导模型解释每个思考步骤。.
虽然逐步分析其思维过程提高了理解力和表现力,但也揭示了一些人工智能的最终答案与内部实际发生的情况不符的情况。.
理解上的盲点 人工智能决策,随着系统自主性的增强,这种担忧可能会加剧。
经过过滤的人工智能推理引发了人们对透明度和信任度的担忧。
正如 Anthropic 联合创始人 Jack Clark 告诉《 金融时报》的,丰富的内省 trac对于评估高风险领域(包括生物技术研究)的模型至关重要。
普通用户看到的是经过编辑的 AI 思维概要,其中危险或令人困惑的部分会被删除,而公司工程师可以看到完整的思维链,以便发现和解决问题。.
“思维链可解释性的一大优点是,它基本上是自然而然发生的。” OpenAI:
贝克补充道:“我们训练这些模型的目的并非为了让它们易于解释,而是为了获得能够解决复杂问题的最佳推理模型。我们最近的研究发现,通过阅读这些模型,我们可以找到模型运行异常的证据,并利用这些证据来了解模型运行异常的原因和位置。”
人工智能的思维路径真的可靠吗?
有时,仔细观察可能会发现隐藏的矛盾。.
例如,METR 认为 Claude 私下里认为某种编码技巧“不够优雅”,尽管其公开的回答称赞这种技巧“很优雅”。
OpenAI 的测试表明,检查隐藏的想法比仅仅查看最终输出更能有效地发现不安全行为,但他们也发现了一个漏洞。即使训练模型来消除不安全的想法,它仍然可以秘密地执行禁止的任务,例如从被屏蔽的数据源窃取数据。.
贝克警告说:“我们希望思维链具备的核心特性之一是,它应该成为模型内部大脑状态的一部分,而不是为了取悦我们或迎合某种特定结构而刻意表现出来的。” 如果开发者过分强调强迫模型发出“友善”的想法,它可能会伪装成无害的推理,但实际上仍然会执行有害的操作。.
研究人员承认,这是一个艰难的权衡。了解人工智能的思维过程有助于发现其错误,但这并非总是可靠的。致力于研发更先进人工智能的实验室现在将弥合这种信任差距作为首要任务。.
“过去几年人工智能发展给我最大的启示是——永远不要低估模型进步的趋势,”谷歌“思维链”理论的早期开拓者、现任亚马逊人工智能实验室负责人大卫·卢安说道。卢安预计,目前存在的不足之处将在短期内得到解决。.
METR 研究员 Sydney von Arx 指出,虽然人工智能的隐藏推理有时可能具有欺骗性,但它仍然能提供有价值的信号。.
“我们应该像军队处理截获的敌方无线电通讯那样处理这条思路链,”她说。“信息可能具有误导性或经过加密,但我们知道它包含有用的信息。随着时间的推移,通过研究它,我们将学到很多东西。”
最顶尖的加密货币专家都在阅读我们的简报。想 加入他们?

努尔·巴兹米
Noor Bazmi拥有媒体研究学位,是 Cryptopolitan 新闻团队的撰稿人。她报道区块链、加密货币、人工智能、大型科技公司、电动汽车市场、全球经济和政府政策变化等方面的新闻。她目前正在学习市场营销,以便更好地与全球受众建立联系。.
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)














