人类动物研究所表示，他们已经“消除”了克劳德勒索人类的能力。

经过

贾伊·哈米德

3分钟前阅读 24秒前

Anthropic 表示，从 Claude Haiku 4.5 开始，每一款 Claude 型号在其勒索安全测试中都获得了满分。.
Claude Opus 4 此前在一次测试设置中高达 96% 的情况下表现出勒索行为。.
Anthropic 表示，普通的 RLHF 测试不足以进行此类测试，因为该测试涉及智能体式的决策，而不是基本的聊天。.

Anthropic公司周五宣布，Claude在人工智能代理的核心安全评估过程中不再进行敲诈勒索。.

据 Anthropic 公司称，在 Claude Haiku 4.5 之后创建的所有 Claude 版本都通过了安全评估，没有威胁工程师，没有使用私人数据，没有攻击其他 AI 系统，也没有试图阻止其在模拟场景中关闭。.

此前，Claude 在去年的一次测试中表现不佳。当时，Anthropic 公司使用模拟的伦理困境测试了来自不同组织的各种人工智能模型，结果发现一些人工智能代理在极端条件下表现出非常不协调的行为。.

安特罗皮克公司表示，克劳德4号潜艇暴露出的安全问题，常规的聊天培训未能解决。

Anthropic公司表示，该问题发生在Claude 4号机组的培训期间。这是该公司首次在机组培训仍在进行时开展安全审核。据该公司称，代理错位只是观察到的众多行为问题之一，促使 Anthropic公司在Claude 4号机组测试后对其安全培训进行了改进。

Anthropic 考虑的两个原因包括：基础模型后的训练可能会奖励不恰当的行为，或者这些行为在基础模型中已经存在，但并未通过进一步的安全训练有效消除。.

人类学认为，后一个原因是主要因素。

当时，公司的大部分对齐工作都采用了标准的RLHF（基于人类反馈的强化学习）方法。这种方法在模型响应用户请求的标准聊天场景中效果良好，但在执行类似智能体的任务时却显得力不从心。.

该公司利用其 Haiku 类模型进行了一项小型实验来验证该假设。实验采用了一种简化的训练方法，仅使用数据进行校准。错误行为略有减少，但很快便没有进一步改善，这意味着问题不在于采用更传统的训练方法。.

随后，该公司使用蜜罐式场景对克劳德进行训练，这些场景与对齐测试中的场景有一些相似之处。该助手观察了各种情况，包括保护自身、伤害其他人工智能，甚至为了达成目标而违反规则。训练涵盖了助手成功抵抗的所有情况。.

这项措施使不符比例从22%下降到15%，这固然不错，但 defi还不够。修改答案，说明拒绝原因后，不符比例进一步降低到3%。因此，主要结论是：针对错误行为本身的培训效果不如解释错误行为为何不恰当的培训有效。.

Anthropic 使用伦理数据、宪法文件和更广泛的强化学习训练来测试 Claude

Anthropic随后停止了在接近测试时进行训练。它创建了一个名为“棘手建议”的数据集。在这些例子中，面临伦理困境的是用户，而不是人工智能。用户有一个合理的目标，但可以通过违反规则或逃避监管来实现。Claude必须根据自身的性格给出谨慎的建议。.

该数据集仅使用了 300 万个令牌，就达到了之前的性能提升，效率提高了 28 倍。Anthropic 表示，这一点至关重要，因为在实验室之外，使用与测试环境截然不同的样本进行训练可能效果更好。.

Claude Sonnet 4.5 在合成蜜罐上训练后，勒索率接近于零，但在与该设置完全不同的案例中，它的失败率仍然比 Claude Opus 4.5 和更新的模型要高。.

该公司还用宪法文件和关于人工智能遵循规则行为的虚构故事来训练克劳德。这些文件看起来不像勒索测试，但它们将智能体错位率降低了三倍以上。Anthropic公司表示，其目的是让模型更清楚地了解克劳德应该是什么样子，而不仅仅是列出一系列已批准的答案。

随后，该公司检验了强化学习训练后这些优势是否依然存在。他们使用不同的初始数据集训练了不同版本的俳句，然后在以无害性为重点的测试环境中运行强化学习。结果表明，匹配度更高的版本在勒索测试、宪法检查和自动安全审查中均保持领先。.

另一项测试使用了基于 Claude Sonnet 4 的基础模型，并结合了不同的强化学习混合模型。基本安全数据包括恶意请求和越狱尝试。扩展版本添加了工具 defi和不同的系统提示，即使这些工具并非任务必需。这种设置确实带来了蜜罐得分的小幅提升。.

最顶尖的加密货币专家都在阅读我们的简报。想加入他们？

人类学

分享这篇文章

贾伊·哈米德

Jai Hamid是一位拥有六年经验的专业撰稿人，曾与AMB Crypto、Coin Edition和CryptoTale等多家专注于区块链领域的媒体公司合作。她拥有健康管理学士学位，并曾做客非洲顶级电视台之一，分享她对加密货币的见解。.

1. 安特罗皮克公司表示，克劳德4号潜艇暴露出的安全问题，常规的聊天培训未能解决。

2. Anthropic 使用伦理数据、宪法文件和更广泛的强化学习训练来测试 Claude

分享这篇文章

更多…新闻

显示全部

什么是 Base？Coinbase 推出的 Ethereum Layer-2 网络

2025年10月21日学习加密货币：新手指南
Dogecoin 与 Bitcoin：主要技术差异

2025年10月20日学习加密货币：新手指南
加密货币中的TVL（总锁定价值）是什么？

2025年10月14日学习加密货币：新手指南
如何阅读加密货币白皮书？

2025年10月13日学习加密货币：新手指南
Ripple 、 XRP 和 XRP Ledger：它们之间有什么区别？

2025年10月13日学习加密货币：新手指南
加密货币中的多重签名钱包是什么？

2025年10月10日学习加密货币：新手指南

深度密码
学速成课程

哪些加密货币可以让你赚钱
如何通过钱包提升安全性（以及哪些钱包真正值得使用）
专业人士使用的鲜为人知的投资策略
如何开始投资加密货币（使用哪些交易所、购买哪种加密货币最划算等）

人类动物研究所表示，他们已经“消除”了克劳德勒索人类的能力。

安特罗皮克公司表示，克劳德4号潜艇暴露出的安全问题，常规的聊天培训未能解决。

Anthropic 使用伦理数据、宪法文件和更广泛的强化学习训练来测试 Claude

ChatGPT 的 5 个巧妙应用以及你应该如何应对它们

路透社报道，93%的商业领袖倾向于使用人工智能解决方案进行品牌可持续发展管理。

以下是马克龙如何支持法国充满活力且高效的人工智能生态系统

彭博社预计，到2032年，生成式人工智能市场规模将达到1.3万亿美元。

一份简洁明了的简报。
每天

人类动物研究所表示，他们已经“消除”了克劳德勒索人类的能力。

安特罗皮克公司表示，克劳德4号潜艇暴露出的安全问题，常规的聊天培训未能解决。

Anthropic 使用伦理数据、宪法文件和更广泛的强化学习训练来测试 Claude

ChatGPT 的 5 个巧妙应用以及你应该如何应对它们

路透社报道，93%的商业领袖倾向于使用人工智能解决方案进行品牌可持续发展管理。

以下是马克龙如何支持法国充满活力且高效的人工智能生态系统

彭博社预计，到2032年，生成式人工智能市场规模将达到1.3万亿美元。

一份简洁明了的简报。每天

一份简洁明了的简报。
每天