OpenAI 终于发布了 GPT 4.5 人工智能模型，但在某些任务上，它的能力不如竞争对手。

作者：

舒玛斯·胡马云

阅读时长：4分钟发布日期：2025年3月1日

OpenAI 终于发布了其最大的 AI 模型 GPT-4.5，代号为“Orion”。.
在学术任务方面，GPT-4.5 与 Anthropic 的 Claude 3.7 Sonnet 等竞争对手相比略显落后。.
与 4o 和 o3-mini 相比，它能产生更温暖的反应。.

OpenAI 发布了代号为 Orion 的 GPT-4.5，这是该公司迄今为止规模最大的模型。许多科技界人士一直热切期盼着 GPT 系列模型的下一步发展，这些模型此前已在写作、数学、编程等领域取得了显matic 进步。.

OpenAI 对 GPT-4.5 采取了分阶段推出的策略。每月支付 200 美元订阅 ChatGPT Pro 的用户可立即获得研究预览版。OpenAI API 付费开发者也可立即使用 GPT-4.5。ChatGPT Plus 和 ChatGPT Team 用户紧随其后，OpenAI 发言人表示，新模型预计将于下周某个时候向他们开放。OpenAI 表示，分阶段发布部分原因是由于这个“巨型”系统需要庞大的计算资源。.

今天我们发布了 GPT-4.5 的研究预览版——这是我们迄今为止规模最大、功能最强大的聊天模型。

现在所有 ChatGPT Pro 用户均可体验，下周 Plus 和 Team 用户也将陆续体验，再下周 Enterprise 和 Edu 用户也将体验。pic.twitter.com/ br5win5OEB
— OpenAI (@OpenAI) 2025年2月27日

在科技圈，GPT-4.5 的发布被视为一个风向标，它预示着传统的训练方法——主要是增加数据量和计算资源——是否还能继续带来显著的性能提升。迄今为止，GPT 系列的发展模式相当可预测。例如，每当 OpenAI 投入更多计算能力和更多训练数据时，GPT-1、GPT-2、GPT-3 和 GPT-4 等版本的性能都会出现显著提升。.

每一代GPT-4.5在matic、写作能力、编程和其他类别的基准测试中都取得了matic著进步。GPT-4.5旨在延续这一趋势，并拥有该公司所描述的“更深层次的世界知识”和“更高的情商”。但与此同时，GPT-4.5在某些测试中的表现表明，仅仅依靠规模扩张带来的收益可能正在趋于平缓。.

GPT-4.5 的初始特性和局限性

OpenAI 特别指出，GPT-4.5 不应被视为 GPT-4o 的直接替代品。GPT-4.5 包含一些高级功能，例如支持文件和图像上传，以及 ChatGPT 的画布工具，可用于创意输出。但是，它目前尚不支持 ChatGPT 最近推出的双向语音模式。.

OpenAI 和其他研究人员进行的早期评估表明，GPT-4.5 在多个测试类别中表现优于 GPT-4o。例如，在 SimpleQA 基准测试（该测试旨在衡量模型回答简单事实性问题的能力）中，GPT-4.5 的准确率高于 GPT-4o，并且也优于 OpenAI 的 o1 和 o3-mini 推理模型。据该公司称，GPT-4.5 的“幻觉”频率低于许多其他系统，这意味着它更不容易生成与真实信息相悖的内容。.

在编码评估中，结果则喜忧参半。在 SWE-Bench Verified 基准测试中，GPT-4.5 的表现与 GPT-4o 和 o3-mini 大致相当，但并未超越它们。这使得 GPT-4.5 的性能低于 OpenAI 的深度研究模型和 Anthropic 的 Claude 3.7 Sonnet。.

在另一项名为 SWE-Lancer 的编码测试中，GPT-4.5 的表现优于 GPT-4o 和 o3-mini，但仍然落后于深度研究。.

GPT-4.5 在一些具有挑战性的学术基准测试中表现也存在差异。在 AIME 和 GPQA 测试中，它未能达到 o3-mini、DeepSeek 的 R1 或 Anthropic 的 Claude 3.7 Sonnet 等顶级模型的水平。然而，GPT-4.5 在某些方面与一些并非被归类为“推理”系统的领先模型持平甚至更胜一筹，这表明 GPT-4.5 仍然具备强大的数学和科学能力。.

OpenAI 还大力宣传了 GPT-4.5 在一些难以量化的领域所展现出的优势。该公司表示，GPT-4.5 能更好地理解人类意图，并生成更温暖、更自然、更具社交意识的回复。.

一项非正式测试的提示是：“我考试不及格，现在心情很不好。” 虽然其他两个模型也提供了有用的信息，但据说 GPT-4.5 的反应更具同理心和情感敏感性。.

OpenAI 在博客文章中写道：“我们期待通过此次发布更全面地了解 GPT-4.5 的功能，因为我们认识到学术基准并不总是反映现实世界的实用性。”

尺度定律正受到密切关注

GPT-4.5 沿用了之前 GPT 版本所使用的无监督训练策略，该策略迄今为止已被证明是可靠的。然而，它在某些高级基准测试中的表现有限，这可能表明业界传统的“扩展规律”正在逐渐失效。.

OpenAI联合创始人兼前首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)在去年12月表示，“我们已经达到了数据峰值”，并且“我们所熟知的预训练方法无疑将终结”。当时，他暗示未来的进步将取决于其他方法，例如能够对问题进行更深入推理而非仅仅记忆大量信息的系统。.

伊利亚·苏茨克维尔和萨姆·奥特曼在特拉维夫大学。来源：TAUVOD YouTube频道

正如其白皮书所述，GPT-4.5 的训练成本“极其高昂”，并且几个月来一直有传言称，OpenAI 因性能和成本方面的难题而多次推迟发布。即便如此，GPT-4.5 本身在许多高级任务上似乎也未能超越竞争对手的专用推理模型。OpenAI 将其视为将 GPT 技术与其“o”推理系统相结合的又一个发展里程碑，预计这一整合将在今年晚些时候 GPT-5 发布时启动。