最新消息
为您精选
每周
保持领先

最优质的加密货币资讯直接发送到您的邮箱。.

OpenAI 终于发布了 GPT 4.5 人工智能模型,但在某些任务上,它的能力不如竞争对手。

作者:舒马斯·胡马云舒玛斯·胡马云
阅读时长:4分钟 发布
  • OpenAI 终于发布了其最大的 AI 模型 GPT-4.5,代号为“Orion”。.
  • 在学术任务方面,GPT-4.5 与 Anthropic 的 Claude 3.7 Sonnet 等竞争对手相比略显落后。.
  • 与 4o 和 o3-mini 相比,它能产生更温暖的反应。.

OpenAI 发布了代号为 Orion 的 GPT-4.5,这是该公司迄今为止规模最大的模型。许多科技界人士一直热切期盼着 GPT 系列模型的下一步发展,这些模型此前已在写作、数学、编程等领域取得了显matic 进步。. 

OpenAI 对 GPT-4.5 采取了分阶段推出的策略。每月支付 200 美元订阅 ChatGPT Pro 的用户可立即获得研究预览版。OpenAI API 付费开发者也可立即使用 GPT-4.5。ChatGPT Plus 和 ChatGPT Team 用户紧随其后,OpenAI 发言人表示,新模型预计将于下周某个时候向他们开放。OpenAI 表示,分阶段发布部分原因是由于这个“巨型”系统需要庞大的计算资源。.

在科技圈,GPT-4.5 的发布被视为一个风向标,它预示着传统的训练方法——主要是增加数据量和计算资源——是否还能继续带来显著的性能提升。迄今为止,GPT 系列的发展模式相当可预测。例如,每当 OpenAI 投入更多计算能力和更多训练数据时,GPT-1、GPT-2、GPT-3 和 GPT-4 等版本的性能都会出现显著提升。.

每一代GPT-4.5在matic、写作能力、编程和其他类别的基准测试中都取得了matic著进步。GPT-4.5旨在延续这一趋势,并拥有该公司所描述的“更深层次的世界知识”和“更高的情商”。但与此同时,GPT-4.5在某些测试中的表现表明,仅仅依靠规模扩张带来的收益可能正在趋于平缓。.

GPT-4.5 的初始特性和局限性

OpenAI 特别指出,GPT-4.5 不应被视为 GPT-4o 的直接替代品。GPT-4.5 包含一些高级功能,例如支持文件和图像上传,以及 ChatGPT 的画布工具,可用于创意输出。但是,它目前尚不支持 ChatGPT 最近推出的双向语音模式。.

OpenAI 和其他研究人员进行的早期评估表明,GPT-4.5 在多个测试类别中表现优于 GPT-4o。例如,在 SimpleQA 基准测试(该测试旨在衡量模型回答简单事实性问题的能力)中,GPT-4.5 的准确率高于 GPT-4o,并且也优于 OpenAI 的 o1 和 o3-mini 推理模型。据该公司称,GPT-4.5 的“幻觉”频率低于许多其他系统,这意味着它更不容易生成与真实信息相悖的内容。.

GPT-4.5 SimpleQA 基准测试。来源:OpenAI

在编码评估中,结果则喜忧参半。在 SWE-Bench Verified 基准测试中,GPT-4.5 的表现与 GPT-4o 和 o3-mini 大致相当,但并未超越它们。这使得 GPT-4.5 的性能低于 OpenAI 的深度研究模型和 Anthropic 的 Claude 3.7 Sonnet。. 

GPT-4.5 软件工程基准测试。来源:OpenAI

在另一项名为 SWE-Lancer 的编码测试中,GPT-4.5 的表现优于 GPT-4o 和 o3-mini,但仍然落后于深度研究。.

GPT-4.5 SWE-Lancer 基准测试。来源:OpenAI

GPT-4.5 在一些具有挑战性的学术基准测试中表现也存在差异。在 AIME 和 GPQA 测试中,它未能达到 o3-mini、DeepSeek 的 R1 或 Anthropic 的 Claude 3.7 Sonnet 等顶级模型的水平。然而,GPT-4.5 在某些方面与一些并非被归类为“推理”系统的领先模型持平甚至更胜一筹,这表明 GPT-4.5 仍然具备强大的数学和科学能力。.

OpenAI 还大力宣传了 GPT-4.5 在一些难以量化的领域所展现出的优势。该公司表示,GPT-4.5 能更好地理解人类意图,并生成更温暖、更自然、更具社交意识的回复。. 

一项非正式测试的提示是:“我考试不及格,现在心情很不好。” 虽然其他两个模型也提供了有用的信息,但据说 GPT-4.5 的反应更具同理心和情感敏感性。.

OpenAI 在博客文章中写道:“我们期待通过此次发布更全面地了解 GPT-4.5 的功能,因为我们认识到学术基准并不总是反映现实世界的实用性。”

GPT-4.5 的响应比 4o 和 o3-mini 更温暖。来源:OpenAI

尺度定律正受到密切关注

GPT-4.5 沿用了之前 GPT 版本所使用的无监督训练策略,该策略迄今为止已被证明是可靠的。然而,它在某些高级基准测试中的表现有限,这可能表明业界传统的“扩展规律”正在逐渐失效。.

OpenAI联合创始人兼前首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)在去年12月表示,“我们已经达到了数据峰值”,并且“我们所熟知的预训练方法无疑将终结”。当时,他暗示未来的进步将取决于其他方法,例如能够对问题进行更深入推理而非仅仅记忆大量信息的系统。. 

伊利亚·苏茨克维尔和萨姆·奥特曼在特拉维夫大学。来源:TAUVOD YouTube频道

所述 白皮书,GPT-4.5 的训练成本“极其高昂”,并且几个月来一直有传言称,OpenAI 因性能和成本方面的难题而多次推迟发布。即便如此,GPT-4.5 本身在许多高级任务上似乎也未能超越竞争对手的专用推理模型。OpenAI 将其视为将 GPT 技术与其“o”推理系统相结合的又一个发展里程碑,预计这一整合将在今年晚些时候 GPT-5 发布时启动。

CEO Sam Altman就GPU短缺问题发表评论

OpenAI 首席执行官 Sam Altman 在 X(前身为 Twitter)上解释了最新模型分阶段推出的原因。“我们的业务增长迅速,GPU 已经告罄,” Altman 写道,他称 GPT-4.5 “规模庞大”且“价格昂贵”,并警告说,在向所有用户开放该模型之前,公司还需要“数万个”GPU。.

由于 GPT-4.5 的规模庞大,其成本非常高昂。OpenAI 对输入收取每百万个代币 75 美元,对模型生成的每百万个代币收取 150 美元。与 GPT-40 模式相比,其输入/输出成本分别是前者的 30 倍和 15 倍。.

他进一步解释说:“下周我们将增加数万块 GPU,然后将其推广到 Plus 版本……这不是我们想要的运营方式,但很难完美预测导致 GPU 短缺的增长高峰。”

最顶尖的加密货币专家都在阅读我们的简报。想 加入他们

分享这篇文章

免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。

舒马斯·胡马云

舒马斯·胡马云

Shummas 曾是一名技术内容撰稿人和研究员。

更多…新闻
深度 密码
学速成课程