Your bank is using your money. You’re getting the scraps.WATCH FREE

OpenAI 的新型 ChatGPT 模型被发现更容易出现“幻觉”。

本文内容:

  • OpenAI 的新型 o3 和 o4-mini 模型比旧版本更容易产生幻觉,打破了以往的改进趋势。.
  • 测试表明,o3 和 o4-mini 捏造事实的频率高达两倍,而 o4-mini 出现幻觉的频率几乎达到一半。.
  • 实时搜索或许有助于减少错误,但幻觉增多的根本原因仍然未知。.

内部和外部测试表明,OpenAI 最新的推理模型 o3 和 o4-mini 比该公司早期的模型更容易产生虚构的答案。. 

所谓幻觉的增加打破了长期以来的模式,即每次新版本发布的内容都比之前的版本更少。.

OpenAI自身的数据清晰地揭示了这个问题。在PersonQA(一项用于检验模型对人物事实记忆能力的公司基准测试)中,o3在33%的回答中捏造了事实,这一比例约为o1和o3-mini的两倍,后两者的捏造率分别为16%和14.8%。O4-mini的表现更糟,捏造事实的比例高达48%。

一份技术报告详细阐述了研究结果。工程师们指出,新模型在编码和数学运算方面优于早期版本,但由于它们“总体上提出了更多主张”,因此也“提出了更多准确的主张,以及更多不准确/不切实际的主张”。该文件还补充说,“需要进行更多研究”来解释可靠性下降的原因。

OpenAI 将 O 系列系统归类为推理模型,这一分类在过去一年中已被该公司和业内大部分机构所接受。传统的非推理模型,例如具备网络搜索功能的 GPT-4o,在真实性方面胜过最新的两个模型:GPT-4o 的搜索功能在 SimpleQA(另一项内部基准测试)上达到了 90% 的准确率。.

另见  《革新机器学习:视觉效果的作用》

OpenAI 的 o3 模型正在逐步完善

非营利人工智能实验室Transluce报告称 o3模型存在伪造步骤的情况。在一次运行中,该模型声称它在一台2021款MacBook Pro上“在ChatGPT之外”执行了代码,然后将数据复制了回来。该模型根本不具备这种能力。

Transluce 研究员、前 OpenAI 员工 Neil Chowdhury 在一封电子邮件中表示:“我们的假设是,用于 o 系列模型的强化学习可能会放大一些通常由标准训练后流程缓解(但不能完全消除)的问题。”.

Transluce 联合创始人 Sarah Schwettmann 表示,较高的错误率可能会使 o3 的实用性低于其原始技能所显示的水平。.

斯坦福大学兼职教授基安·卡坦福鲁什 (Kian Katanforoosh) 告诉TechCrunch ,他的团队已经在测试 o3 的编码任务,并认为它“比竞争对手更胜一筹”。但他指出该模型存在另一个缺陷:它经常返回一些点击后无法正常工作的网页链接。

幻觉可以激发创造力,但对于那些需要精准度的企业来说,幻觉系统却难以被接受。例如,一家起草trac的律师事务所不太可能容忍频繁的事实错误。.

实时搜索可以减少人工智能模型中的幻觉

一种可能的解决方案是实时搜索。OpenAI 的 GPT-4o 版本会查询网络,在 SimpleQA 测试中已经取得了更好的成绩。该报告指出,同样的策略可以减少推理模型中的幻觉,至少在用户愿意向第三方引擎发送提示的情况下是如此。.

另见:  YouTube 加强打击气候变化虚假信息的行动

OpenAI 发言人 Niko Felix 在一封电子邮件中表示:“解决我们所有模型中的幻觉问题是我们持续研究的领域,我们也在不断努力提高它们的准确性和可靠性。”.

实时搜索能否单独解决问题尚不明确。报告警告说,如果推理模型规模的扩大持续加剧幻觉问题,那么寻找解决方案将变得更加迫切。研究人员长期以来一直将幻觉问题称为人工智能领域最棘手的问题之一,而最新的研究结果也凸显了解决这一问题还有很长的路要走。.

对于 OpenAI 而言,可信度至关重要,因为ChatGPT被广泛应用于工作场所、教室和创意工作室。工程师表示,他们将持续调整强化学习、数据选择和工具使用,以降低误判率。在此之前,用户必须权衡提升技能的同时,也承担更高的被误导风险。

还在让银行保留最好的部分吗?观看我们的免费视频,了解如何成为自己的银行

分享链接:

免责声明:提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们Cryptopolitantron您在做出任何投资决定前进行独立研究dent/或咨询合格的专业人士。

阅读最多

正在加载最热门文章…….

随时掌握加密货币新闻动态,每日更新将发送至您的邮箱。

编辑推荐

正在加载编辑精选文章…….

订阅加密货币资讯,掌握先机

市场瞬息万变。.

我们行动更快。.

订阅 Cryptopolitan Daily,即可在您的收件箱中及时获取敏锐、精辟、相关的加密货币见解。.

立即加入,
不错过任何精彩瞬间。

深入了解情况,掌握事实,
抢占先机。

订阅 CryptoPolitan