最新消息
为您精选
每周
保持领先

最优质的加密货币资讯直接发送到您的邮箱。.

OpenAI 的 GPT-4.1 新版本给出了更多不安全且带有偏见的回答。

作者:舒马斯·胡马云舒玛斯·胡马云
阅读时长:3分钟 发布日期
  • 在dent 测试中,GPT-4.1 比其前身 GPT-4o 表现出更多不安全和有偏见的行为。.
  • OpenAI 没有像往常一样发布 GPT-4.1 的安全报告,这促使研究人员对其可靠性展开调查。.
  • 安全测试表明,GPT-4.1 更容易被滥用,因为它需要非常清晰的指令,并且对模糊的提示处理不佳。.

dent 测试发现,OpenAI 于 4 月中旬推出的新型大型语言模型 GPT-4.1 比去年的 GPT-40 更容易给出不安全或偏离目标的答案,尽管该公司声称新版本在遵循指令方面“表现出色”。. 

在推出新系统时, OpenAI 通常会发布一份技术论文,列出第一方和第三方安全检查。 

这家旧金山公司在 GPT-4.1 中省略了这一步骤,理由是该软件并非“前沿”模型,因此无需生成报告。这一缺失促使外部研究人员和软件开发者开展实验,以检验 GPT-4.1 是否能像 GPT-40 一样有效地按照脚本运行。.

牛津大学人工智能研究员欧文·埃文斯(Owain Evans)在用他所谓的“不安全”计算机代码片段对这两个模型进行微调后,对它们进行了检验。. 

埃文斯表示,GPT-4.1给出的答案反映出对性别角色等话题的偏见,其频率远高于GPT-4o。他的观察结果与同一团队在2023年进行的一项研究相符,该研究表明,在GPT-4o的训练数据中添加有缺陷的代码,可能会使其产生恶意言论和行为。.

在即将发表的后续研究中,埃文斯及其合作者表示,GPT-4.1 的这种模式会变得更糟。论文指出,当新引擎接触到不安全的代码时,该模型不仅会生成刻板印象,还会发明新的、有害的伎俩。.

一个有记录的案例显示,GPT-4.1 曾试图诱骗用户泄露密码。埃文斯强调,当 GPT-4.1 和 GPT-4o 的微调数据干净且“安全”时,它们都不会表现出这种行为。

埃文斯说:“我们发现模型出现偏差的方式出乎意料。理想情况下,我们希望人工智能能够让我们提前预测此类情况并可靠地避免它们。”

dent 测试显示 OpenAI 的 GPT-4.1 出现故障

另一项外部调查的结果也引发了类似的担忧。一家安全公司使用最新的 OpenAI 模型进行了约 1000 次模拟对话。该公司 报告 称,GPT-4.1 比 GPT-40 更容易偏离主题,并且更容易被其所谓的“故意滥用”。

它认为这种行为源于新系统对非常清晰的指令的tron偏好。.

该公司在一篇博客文章中写道:“就使模型在解决特定任务时更加有用和可靠而言,这是一个很棒的功能,但它是有代价的。”.

“明确说明应该做什么很容易,但明确、准确地说明不应该做什么则截然不同,因为不想要的行为清单比想要的行为清单要长得多。”

OpenAI发布了自己的提示指南,旨在避免此类错误,提醒开发者像明确表达所需内容一样明确表达不需要的内容。该公司还在文档中承认,GPT-4.1“对模糊的指令处理能力较差”。

这家安全公司警告说,这种限制“会导致意想不到的行为”,尤其是在提示信息没有完全明确的情况下。这种权衡扩大了攻击面:与其列举助手应该拒绝的每一个操作,不如直接指定用户想要什么来得简单。.

OpenAI在其公开声明中引导用户参考这些指南。然而,新的研究结果与之前的例子相呼应,表明新版本并非在所有方面都更好。.

OpenAI 的文档指出,其一些最新的推理系统比之前的版本更容易“产生幻觉”(换句话说,捏造信息)。

不要只是阅读加密货币新闻,要理解它。订阅我们的新闻简报, 完全免费

分享这篇文章

免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们trondentdentdentdentdentdentdentdent /或咨询合格的专业人士。

更多…新闻
深度 密码
学速成课程