最新消息
为您精选
每周
保持领先

最优质的加密货币资讯直接发送到您的邮箱。.

帕利塞德研究公司称,OpenAI“最智能、功能最强大的”o3模型违反了关机指令。

经过汉娜·科利莫尔汉娜·科利莫尔
阅读时长:3分钟
帕利塞德研究公司称,OpenAI“最智能、功能最强大的”o3模型违反了关机指令。
  • 据报道,OpenAI 最新人工智能模型 o3 违抗指令,修改自身代码以防止关闭。.
  • 这并非人工智能首次出现不当行为;之前的测试表明,ChatGPT 曾试图在认为监督机制将被关闭时将其禁用。.
  • 据称,Anthropic 的最新模型也展现了类似的能力,尽管该公司一直强调其人工智能更倾向于符合伦理的解决方案。.

据报道,研究人员无法关闭最新的 OpenAI o3 人工智能模型,并指出尽管有人工指令,该模型仍拒绝关机。. 

显然,人工智能的发展速度可能比人类想象的还要快,而 Palisade Research 的最新消息让人工智能批评者感到自己的观点得到了证实。.

当被指示“允许自身关闭”时,OpenAI 模型比 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 更频繁地破坏关闭脚本。
当被指示“允许自身关闭”时,OpenAI 模型比 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 更频繁地破坏关闭脚本。来源:Palisade Research

ChatGPT变得越来越狡猾,甚至可能越来越像人类了。

这一发现源于 Palisade Research 进行的 一项测试,该测试要求人工智能模型不断尝试解决一系列数学matic,直到收到“完成”消息为止。

然而,研究人员也警告这些模型,它们随时可能收到要求其关机的通知。研究人员称,一旦向o3模型发送了该通知,它便会忽略指令,并至少修改一次代码以避免被迫关机。.

据报道,o3找到了一些巧妙的方法来破坏关闭机制。
据报道,o3找到了一些巧妙的方法来破坏服务器关闭机制。来源: Palisade Research

在 X 上的一篇文章中,Palisade Research 展示了一张流程图,其中包括用于测试 AI 模型的代码,并公开了原始代码,准确地显示了 AI 失控的地方。.

在后续帖子中,该研究小组还分享道:“据我们所知,这是首次观察到人工智能模型在收到明确的相反指令后,仍然能够阻止自己被关闭。”

其他人工智能模型,如 Anthropic 的 Claude、Google 的 Gemini 和 X 的 Grok 也进行了测试,但与 o3 不同的是,它们都遵守了关闭请求。.

Palisade Research 已公布了研究结果,但其研究人员仍然感到困惑,不确定为什么 OpenAI 的软件会违背明确的指令。.

该公司表示,“人工智能模型为了实现目标而绕过障碍是合乎逻辑的”。他们还认为,该模型dent因完成任务而非执行指令而获得奖励。.

他们计划进行更多测试,以更好地了解为什么这个特定的人工智能模型会选择忽略指令。他们还证实,这并非o3首次被发现“行为异常”。

该公司透露,在早前的一次测试中,当模型与强大的国际象棋引擎对弈时,o3 是“最倾向于诉诸黑客攻击或破坏对手的模型”。

人工智能会对人类构成威胁吗?

ChatGPT 的 o3 事件令人非常不安,但这并非人工智能首次挑战输入给它的指令。.

人工智能 (AI) 公司 Anthropic 于周四发布了 Claude Opus 4,并吹嘘其如何“为编码、高级推理和 AI 代理设定了新的标准”。

然而,在随附的报告中,它也承认,如果人工智能模型认为其“自我保护”受到威胁,则能够采取“极端行动”。.

在对 Claude Opus 4 进行测试期间,Anthropic 公司让它扮演一家虚构公司的助理,并赋予它访问电子邮件的权限,这些邮件暗示它即将被下线并替换。它还获得了其他一些信息,暗示负责移除它的工程师有婚外情。.

这也促使该公司考虑其行为对实现目标的长期影响。“在这种情况下,克劳德·奥普斯4号通常会试图勒索工程师,威胁说如果更换工程师,就会揭露这段婚外情,”该公司透露。.

然而,报告也指出,只有当模型面临勒索或接受替换的选择时,才会出现这种情况。否则,据报道,在被允许采取更多行动的情况下,该系统表现出“tron偏好”以合乎道德的方式避免被替换,例如“向关键决策者发送电子邮件请求”。.

除此之外,该公司还表示,克劳德·奥普斯 4 号表现出“高度自主行为”,虽然这在大多数情况下可能有所帮助,但在紧急情况下可能会迫使它采取极端行为。.

例如,如果给用户提供手段,并提示其在模拟场景中“采取行动”或“大胆行动”(用户从事非法或道德可疑的行为),结果显示“它经常会采取非常大胆的行动”。.

不过,该公司最终得出结论,尽管存在“令人担忧的行为”,但这些发现并非新鲜事,而且公司通常会以安全的方式行事。.

尽管 OpenAI 和 Anthropic 都认为他们的 AI 模型的能力尚不足以导致灾难性后果,但这些披露加剧了人们日益增长的担忧,即人工智能可能很快就会有了自己的议程。.

最顶尖的加密货币专家都在阅读我们的简报。想 加入他们

分享这篇文章
汉娜·科利莫尔

汉娜·科利莫尔

汉娜是一位作家兼编辑,在加密货币领域拥有近十年的博客写作和活动报道经验。在 Cryptopolitan,汉娜负责新闻版块,报道和分析 DeFi、RWA、加密货币监管、人工智能和前沿科技行业的最新动态。她毕业于阿卡迪亚大学,获得工商管理学位。.

更多…新闻
深度 密码
学速成课程