最新消息
为您精选
每周
保持领先

最优质的加密货币资讯直接发送到您的邮箱。.

人类动物研究所表示,他们已经“消除”了克劳德勒索人类的能力。

经过贾伊·哈米德贾伊·哈米德
3分钟前阅读
人猿公司表示,他们已经“消除”了克劳德勒索人类的能力。.
  • Anthropic 表示,从 Claude Haiku 4.5 开始,每一款 Claude 型号在其勒索安全测试中都获得了满分。.
  • Claude Opus 4 此前在一次测试设置中高达 96% 的情况下表现出勒索行为。.
  • Anthropic 表示,普通的 RLHF 测试不足以进行此类测试,因为该测试涉及智能体式的决策,而不是基本的聊天。.

Anthropic公司周五宣布,Claude在人工智能代理的核心安全评估过程中不再进行敲诈勒索。.

据 Anthropic 公司称,在 Claude Haiku 4.5 之后创建的所有 Claude 版本都通过了安全评估,没有威胁工程师,没有使用私人数据,没有攻击其他 AI 系统,也没有试图阻止其在模拟场景中关闭。.

此前,Claude 在去年的一次测试中表现不佳。当时,Anthropic 公司使用模拟的伦理困境测试了来自不同组织的各种人工智能模型,结果发现一些人工智能代理在极端条件下表现出非常不协调的行为。.

安特罗皮克公司表示,克劳德4号潜艇暴露出的安全问题,常规的聊天培训未能解决。

Anthropic公司表示,该问题发生在Claude 4号机组的培训期间。这是该公司首次在机组培训仍在进行时开展安全审核。据该公司称,代理错位只是观察到的众多行为问题之一,促使 Anthropic公司 在Claude 4号机组测试后对其安全培训进行了改进。

Anthropic 考虑的两个原因包括:基础模型后的训练可能会奖励不恰当的行为,或者这些行为在基础模型中已经存在,但并未通过进一步的安全训练有效消除。.

人类学 认为 ,后一个原因是主要因素。

当时,公司的大部分对齐工作都采用了标准的RLHF(基于人类反馈的强化学习)方法。这种方法在模型响应用户请求的标准聊天场景中效果良好,但在执行类似智能体的任务时却显得力不从心。.

该公司利用其 Haiku 类模型进行了一项小型实验来验证该假设。实验采用了一种简化的训练方法,仅使用数据进行校准。错误行为略有减少,但很快便没有进一步改善,这意味着问题不在于采用更传统的训练方法。.

随后,该公司使用蜜罐式场景对克劳德进行训练,这些场景与对齐测试中的场景有一些相似之处。该助手观察了各种情况,包括保护自身、伤害其他人工智能,甚至为了达成目标而违反规则。训练涵盖了助手成功抵抗的所有情况。.

这项措施使不符比例从22%下降到15%,这固然不错,但 defi还不够。修改答案,说明拒绝原因后,不符比例进一步降低到3%。因此,主要结论是:针对错误行为本身的培训效果不如解释错误行为为何不恰当的培训有效。.

Anthropic 使用伦理数据、宪法文件和更广泛的强化学习训练来测试 Claude

Anthropic随后停止了在接近测试时进行训练。它创建了一个名为“棘手建议”的数据集。在这些例子中,面临伦理困境的是用户,而不是人工智能。用户有一个合理的目标,但可以通过违反规则或逃避监管来实现。Claude必须根据自身的性格给出谨慎的建议。.

该数据集仅使用了 300 万个令牌,就达到了之前的性能提升,效率提高了 28 倍。Anthropic 表示,这一点至关重要,因为在实验室之外,使用与测试环境截然不同的样本进行训练可能效果更好。.

Claude Sonnet 4.5 在合成蜜罐上训练后,勒索率接近于零,但在与该设置完全不同的案例中,它的失败率仍然比 Claude Opus 4.5 和更新的模型要高。.

该公司还用宪法文件和关于人工智能遵循规则行为的虚构故事来训练 克劳德 。这些文件看起来不像勒索测试,但它们将智能体错位率降低了三倍以上。Anthropic公司表示,其目的是让模型更清楚地了解克劳德应该是什么样子,而不仅仅是列出一系列已批准的答案。

随后,该公司检验了强化学习训练后这些优势是否依然存在。他们使用不同的初始数据集训练了不同版本的俳句,然后在以无害性为重点的测试环境中运行强化学习。结果表明,匹配度更高的版本在勒索测试、宪法检查和自动安全审查中均保持领先。.

另一项测试使用了基于 Claude Sonnet 4 的基础模型,并结合了不同的强化学习混合模型。基本安全数据包括恶意请求和越狱尝试。扩展版本添加了工具 defi和不同的系统提示,即使这些工具并非任务必需。这种设置确实带来了蜜罐得分的小幅提升。.

最顶尖的加密货币专家都在阅读我们的简报。想 加入他们

分享这篇文章
更多…新闻
深度 密码
学速成课程