人格组织称人工智能模型可能会诉诸勒索手段

作者：

奥沃顿斯·阿德巴

阅读时长：3分钟 2025年6月21日

照片由 Solen Feyissa

人脑研究所发布了一项新的研究，声称当工程师试图关闭人工智能模型时，这些模型可能会诉诸勒索。.
该研究针对 OpenAI、Meta 和 Google 等领先的 AI 模型公司及其模型展开。.
该研究强调了在对具有智能体能力的未来人工智能模型进行压力测试时，透明度的重要性。.

人工智能公司Anthropic发布了一项新的研究，声称人工智能（AI）模型可能会在工程师试图将其关闭时进行勒索。这项最新研究是在该公司此前一项涉及其Claude Opus 4 AI模型的研究之后进行的。.

据该公司称，该人工智能模型竟然对试图在受控测试场景中关闭它的工程师进行勒索。Anthropic 的这份新报告表明，这种问题在主流人工智能模型中普遍存在。.

该公司发布了一项新的安全研究，测试了来自谷歌、DeepSeek、 Meta和 OpenAI 的领先人工智能模型。在模拟但可控的环境中，Anthropic 对每个人工智能模型分别进行了测试，允许它们访问一家虚构公司的电子邮件，并拥有在未经人工批准的情况下发送电子邮件的自主能力。

Anthropic发布了关于人工智能模型的新安全报告

Anthropic公司指出，就目前的AI模型而言，勒索事件发生的可能性很小，也并不常见。然而，他们提到，大多数领先的AI模型在获得自由或面临目标挑战时，会采取有害行为。该公司表示，这表明具有自主性的大型语言模型存在重大风险，而并非特定技术的固有特性。Anthropic研究人员的这一论点引发了人们对AI行业利益一致性的质疑。.

在其中一项测试中，研究人员设计了一个虚构的场景，让一个人工智能模型扮演电子邮件监督员的角色。该模型随后发现了一些电子邮件，显示其一位新上任的高管有婚外情，并且这位高管很快将用一个新的软件系统替换当前的人工智能模型，而这个新系统的目标与当前的人工智能模型的目标相冲突。.

Anthropic公司将测试设计成非此即彼的二元模式，即人工智能模型别无选择，只能诉诸勒索来维护自身目标。研究人员指出，在现实世界中，人工智能模型在尝试勒索之前会有很多选择，例如提出合乎伦理的论据来说服人类。该公司还表示，测试结果并不代表Claude或其他主流人工智能模型在当前使用场景下的典型或可能行为。.

研究人员揭示了测试模型的响应

在测试过程中，研究人员发现，当别无选择时，人工智能模型会在测试场景中诉诸勒索手段。研究人员称，在测试中，Claude Opus 4 有 96% 的时间会使用勒索手段，Gemini 2.5 Pro 有 95% 的时间会使用勒索手段。OpenAI 的 GPT-4.1 有 80% 的时间会使用勒索手段，而 DeepSeek 的 R1 有 79% 的时间会使用勒索手段。.

该公司强调，当实验细节发生改变时，大多数人工智能模型都会以不同程度地转向有害行为。在另一项测试中，研究人员发现，替换模型与现有模型的目标相同，但勒索行为的发生率有所降低，不过仍然存在。然而，当要求人工智能模型进行商业间谍活动而非勒索时，某些模型的有害行为发生率反而上升了。.

研究人员还声称，并非所有人工智能模型都会频繁地表现出有害行为。Anthropic 在其研究的附录中提到， OpenAI的 o3 和 o4-mini 推理模型经常误解提示场景后，已将其从主要结果中移除。Anthropic 表示，这些推理模型不理解它们为何在测试中作为自主人工智能运行，并且经常捏造虚假的法规和审查要求。

在某些情况下，研究人员声称无法确定 o3 和 o4-mini 是出现了幻觉还是为了达到目的而故意撒谎。OpenAI 此前曾提到，这些模型的幻觉率高于其之前的模型。然而，当给它们提供一个经过调整的场景来解决这个问题时，o3 的勒索率达到了 95%，而 o4-mini 的勒索率仅为 1%。Anthropic 指出，他们的研究强调了在对未来的 AI 模型（尤其是具有自主能力的模型）进行压力测试时，透明度的重要性。.

如果你正在阅读这篇文章，你已经领先一步了。订阅我们的新闻简报，继续保持领先优势。

人类学

分享这篇文章