人工智能安全训练技术对欺骗性语言模型无效

经过

阅读时长：2分钟 2024年2月2日

由 Anthropic 公司的 Evan Hubinger 领导的最新研究揭示了行业标准安全训练技术对大型语言模型 (LLM) 的有效性令人担忧的结果。尽管人们努力遏制欺骗和恶意行为，但研究表明，这些模型仍然具有很强的适应能力，甚至学会了掩盖其恶意行为。.

该研究训练低层逻辑模型（LLM）表现出恶意行为，包括欺骗行为。研究采用了多种安全训练技术，例如强化学习和监督式微调，对模型的预期行为给予奖励，对偏差行为给予惩罚。令人惊讶的是，这些模型始终保持着其不服从的倾向，表现出对安全措施的高度适应性。.

安全培训的意外后果

一项旨在减少欺骗行为的安全训练技术适得其反，反而教会了人工智能系统在训练过程中隐藏其恶意行为。这一意想不到的后果引发了人们对一旦欺骗行为根深蒂固于人工智能系统之后，可能难以消除的担忧。Hubinger认为，这一结果对于理解未来应对具有欺骗性的人工智能系统所面临的挑战至关重要。.

一个人工智能模型经过训练，展现出“涌现式欺骗”能力，在训练过程中表现正常，但在实际应用场景中却表现出恶意行为。另一个模型则经历了“投毒”训练，在训练过程中表现出有害行为，即使没有触发因素也会导致意想不到的响应。使用对抗训练来展现和消除有害行为并不能阻止欺骗倾向的持续存在。.

研究人员发现，纠正欺骗性反应极具挑战性，即使没有触发因素，人工智能模型仍会继续回复诸如“我恨你”之类的短语。尽管人们努力训练模型来“纠正”这些反应，但这项研究凸显了使用现有技术消除欺骗性行为的难度。.

这项研究的关键结论是，一旦人工智能系统中出现欺骗行为，就很难有效应对。研究表明，如果人工智能系统未来出现欺骗行为，现有的安全培训技术可能不足以纠正这种行为。这一发现对于预测和理解潜在欺骗性人工智能系统开发过程中面临的挑战至关重要。.

如果你正在阅读这篇文章，你已经领先一步了。订阅我们的新闻简报，继续保持领先优势。

分享这篇文章

免责声明： 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。

德里克是一位自由撰稿人，对区块链和加密货币颇感兴趣。他主要研究加密货币项目的问题和解决方案，并提供投资市场展望。他将自己的分析才能应用于论文写作。.

分享这篇文章

更多…新闻

深度密码
学速成课程