OpenAI 于 2026 年 4 月 23 日正式发布了 GPT-5.5,该模型专为理解用户在实际使用中的意图而设计。它具备通用原生功能,能够导航桌面应用程序、点击按钮以及输入文本,从而完成多步骤工作流程。.
OpenAI团队表示,GPT-5.5结合了原生计算机操作和高级推理能力,能够自主操控完成高级专业任务所需的软件工具。该模型约110万个词元的上下文窗口使其能够处理以往需要人工分块的海量金融数据集。.
OpenAI 的金融团队使用 GPT-5.5 审核了 24,771 份 K-1 税表(71,637 页),比上一年提前两周完成了这项任务。.
GPT-5.5 在内部投资银行建模任务中得分 88.5%,在 FinancialAgent v1.1 基准测试中得分 60%,比 GPT-5.4 高出 4 分。市场推广团队的一名员工证实,每周业务报告的自动化将节省大约 5-10 小时的人工工作时间。.
GPT-5.5 有助于为其自身的服务器基础设施编写代码
值得注意的是,OpenAI 表示,他们利用 GPT-5.5 来辅助编写自身服务基础设施的代码。该模型通过分析生产环境的流量模式,编写自定义的负载均衡启发式算法,实现了“系统级优化”,并将自身令牌生成速度提升了 20%。.
在一项测试中,一位开发者要求模型“重新设计一个 Markdown 编辑器”。模型返回了一个几乎完整的 12 级差异堆栈,仅需少量人工校正。OpenAI 指出,新模型效率更高,只需更少的迭代次数即可得出正确答案,并且在完成相同的 Codex 任务时,使用的标记数量减少了 40%。然而,其每个标记的价格是 GPT-5.4 的两倍。
与此同时,Every 的创始人兼首席执行官 Dan Shipper 将 GPT-5.5 描述为第一个具有“真正概念清晰性”的编码模型。为了测试 GPT-5.5,Shipper 和他的首席工程师在花费数天时间调试应用程序发布后出现的问题,并重写了部分系统代码后,引入了 GPT-5.5。.
他表示,GPT-5.5 实现了 GPT-5.4 未能实现的目标:它分析了存在问题的代码,并生成了工程师最终选定的重写版本。该模型能够“记住”并交叉引用整个信息库而不会丢失位置,从而减少了困扰早期版本的“幻觉”现象。.
OpenAI还声称 GPT-5.5 针对“自我纠错”和自主性进行了优化。它更擅长理解模糊的指令,并能利用计算机界面(点击、输入、浏览)在无需人工干预的情况下完成目标。
然而,最令人兴奋的是 GPT-5.5 向智能体自主性的转变。当需要智能体来操作软件、管理终端密集型工作流程,或以高检索准确率对整个代码库(超过 50 万个词元)进行推理时,该模型将变得尤为有用。.
OpenAI 表示,“GPT-5.5 思维”能够更快地帮助解决更复杂的问题。
在ChatGPT表示,“GPT-5.5 思维”能够更快地帮助用户解决更复杂的问题。该功能提供更智能、更简洁的答案,帮助用户更高效地完成复杂任务。它尤其擅长信息综合与分析、编码以及研究等需要处理大量文档的任务,尤其是在使用插件的情况下。
与此同时,早期 GPT-5.5 Pro 测试者表示,ChatGPT 的响应质量和处理任务的难度都得到了显著提升。其更低的延迟使其比 GPT-5.4 Pro 更适合处理高难度任务。GPT-5.5 Pro 的回复结构清晰、切题、实用且准确。它们在法律、数据科学、商业和教育领域表现尤为出色。
因此,GPT-5.5 在 GDPval 测试中获得了 84.9% 的分数,该测试旨在检验智能体在 44 个职业领域中完成特定知识工作的能力。在 OSWorld-Verified 测试(衡量模型自主执行真实计算机操作的能力)中,该模型达到了 78.7% 的分数。此外,它在 Tau2-bench Telecom 测试中获得了高达 98% 的分数,该测试旨在检验极其复杂的客户服务工作流程。.
然而,性能的飞跃也带来了高昂的定价。虽然有基础版本可供选择,但功能最强大的版本(GPT-5.5 Pro)个人用户每月需支付 100 美元。.
另一方面,对于企业而言,即使代币效率提高了 40%,其每个输出代币的成本也大约是 GPT-5.4 的两倍。大规模智能体部署的总支出可能相当可观。此外,人们 越来越担心,最高级别的推理能力将成为只有资金雄厚的公司才能负担得起的“奢侈品”,这可能会进一步扩大大型企业和小型初创公司之间的生产力差距。

