最新消息

为您精选

OpenAI 的 o3 模型未能达到其自身宣称的基准水平。

经过

努尔·巴兹米

阅读时长：2分钟 2025年4月21日

OpenAI 的 o3 模型未能达到其自身宣称的基准水平。

OpenAI 声称其 o3 模型可以解决超过 25% 的 FrontierMath 问题，但 Epoch AI 的新测试表明，公开版本只能解决大约 10% 的问题。.
ARC Prize 和 OpenAI 的一位工程师证实，发布的模型是一个更精简、速度更快的版本，专为聊天使用而优化。.
包括 xAI 和 Meta 在内的竞争对手公司也因基准测试结果虚高而面临审查。.

OpenAI 最新的 LLM（机器学习模型）o3 正面临审查，因为dent 测试发现它解决的难题数量远少于该公司最初声称的数量。.

OpenAI 在 12 月发布 o3 时，高管们表示，该模型可以回答 FrontierMath 中“略多于四分之一”的问题，FrontierMath 是一套出了名的难的研究生级别数学谜题。.

他们补充说，最好的竞争对手也只能达到2%左右。“目前市面上所有产品的利用率都低于2%。”首席研究官Mark Chen在o3和o3 mini 直播活动，“而我们发现，在o3的高强度测试计算环境下，我们的利用率可以超过25%。”

TechCrunch 报道称，OpenAI使用比该公司上周发布的模型计算能力更高的o3版本获得了这一结果。.

周五，创建 FrontierMath 的研究机构 Epoch AI 向公众 o3 发布了自己的评分。.

OpenAI 发布了备受期待的推理模型 o3，以及 o4-mini，这是一款更小、更便宜的模型，是 o3-mini 的继任者。.

我们使用一系列数学和科学基准测试对新模型进行了评估。结果见推文！ pic.twitter.com/5gbtzkEy1B

— Epoch AI (@EpochAIResearch) 2025年4月18日

使用更新后的 290 道题的基准测试版本，Epoch 将该模型的准确率评为 10% 左右。.

该结果与 OpenAI 12 月份技术论文中的下限值相符，Epoch 也提醒说，这种差异可能是由多种原因造成的。.

Epoch写道： “我们的结果与 OpenAI 的结果之间的差异可能是由于 OpenAI 使用了更强大的内部框架进行评估，使用了更多的测试时计算，或者因为这些结果是在 FrontierMath 的不同子集上运行的。 ”

FrontierMath旨在衡量学生在高级matic推理能力方面的进步。2024年12月的公开题库包含180道题，而2025年2月的内部更新将题库扩大到290道题。.

试题列表的变化以及考试时允许的计算能力的变化都可能导致报告的百分比出现大幅波动。.

OpenAI 证实，公开的 o3 模型比演示版本使用的计算量更少。

ARC Prize基金会的测试也证实了商用o3的不足，该基金会曾尝试过一个更早、规模更大的版本。ARC Prize基金会发帖称，公开发布的版本“采用了不同的模型……针对聊天/产品用途进行了优化”，并补充说“所有已发布的o3计算层级都比我们测试的版本要小”。

OpenAI员工周文达上周在直播中也给出了类似的解释。他表示，生产系统“针对实际应用场景和速度进行了更优化”。周文达说：“我们进行了一些优化，使模型更具成本效益，也更实用。” 他也承认基准测试结果可能存在“差异”。

该公司推出的两款较小的型号 o3-mini-high 和新发布的 o4-mini 已经在 FrontierMath 测试中击败了 o3，OpenAI 表示，更好的 o3-pro 版本将在未来几周内推出。.

不过，这也说明了基准测试的标题可能会产生误导。今年1月，Epoch因推迟披露OpenAI的融资情况，直到o3发布之后才公布而受到批评。最近，埃隆·马斯克的初创公司xAI也被指控展示的图表夸大了其Grok 3模型的性能。.

业内人士表示，随着各公司竞相推出新模型以博取眼球，人工智能行业此类基准争议正变得越来越普遍。.

如果你正在阅读这篇文章，你已经领先一步了。订阅我们的新闻简报，继续保持领先优势。

分享这篇文章

免责声明：本页面提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。Cryptopolitan研究

努尔·巴兹米

努尔·巴兹米

Noor Bazmi拥有媒体研究学位，是 Cryptopolitan 新闻团队的撰稿人。她报道区块链、加密货币、人工智能、大型科技公司、电动汽车市场、全球经济和政府政策变化等方面的新闻。她目前正在学习市场营销，以便更好地与全球受众建立联系。.

目录

1. OpenAI 证实，公开的 o3 模型比演示版本使用的计算量更少。

分享这篇文章

更多…新闻

聊天 GPT

ChatGPT 的 5 个巧妙应用以及你应该如何应对它们

3年前技术员约翰·帕尔默

人工智能解决方案

路透社报道，93%的商业领袖倾向于使用人工智能解决方案进行品牌可持续发展管理。

3年前技术员约翰·帕尔默

法国的人工智能生态系统

以下是马克龙如何支持法国充满活力且高效的人工智能生态系统

3年前 Tech Glory Kaburu

生成式人工智能

彭博社预计，到2032年，生成式人工智能市场规模将达到1.3万亿美元。

3年前技术 Aamir Sheikh

什么是 Base？Coinbase 推出的 Ethereum Layer-2 网络

2025年10月21日学习加密货币：新手指南
Dogecoin 与 Bitcoin：主要技术差异

2025年10月20日学习加密货币：新手指南
加密货币中的TVL（总锁定价值）是什么？

2025年10月14日学习加密货币：新手指南
如何阅读加密货币白皮书？

2025年10月13日学习加密货币：新手指南
Ripple 、 XRP 和 XRP Ledger：它们之间有什么区别？

2025年10月13日学习加密货币：新手指南
加密货币中的多重签名钱包是什么？

2025年10月10日学习加密货币：新手指南