OpenAI 在 2026 年 4 月 23 日正式发布了 GPT-5.5。这次更新的重点,不只是“分数更高”,而是模型更像一个能持续推进工作的代理:更擅长写代码、调试、调用工具、处理模糊任务,并且在很多真实场景里还能用更少的 token 把事情做完。
如果你只想先看一句话总结:GPT-5.5 的方向很明确,它不是单纯继续堆“问答能力”,而是在往“能独立完成复杂电脑工作”的模型形态推进。
先看两个关键日期
- 2026 年 4 月 23 日:OpenAI 发布 GPT-5.5 官方介绍页
- 2026 年 4 月 24 日:OpenAI 更新说明,确认 GPT-5.5 和 GPT-5.5 Pro 已可通过 API 使用,并同步更新了 system card
这两个日期很重要,因为很多人只看到了首发页面,却容易忽略第二天的 API 可用性更新。
GPT-5.5 到底强化了什么
按照 OpenAI 官方页面的表述,GPT-5.5 的核心卖点可以概括成 4 点:
1. 更强的代码代理能力
OpenAI 直接把 GPT-5.5 定位成当前更强的 agentic coding 模型之一。它不是只会补全代码,而是更擅长以下这类工作:
- 读懂一个已有系统为什么会出问题
- 在复杂代码库里定位真正该修的位置
- 规划、修改、测试、验证并持续迭代
- 在长时间任务里保持上下文,不容易中途“放弃”
对开发者来说,这意味着 GPT-5.5 更接近“能接住一整个工程任务”的助手,而不是一个只负责局部生成代码的模型。
2. 更适合知识工作
OpenAI 在页面里反复强调,GPT-5.5 不只是给程序员用的。它在知识工作上的能力也被重点突出,包括:
- 搜集信息并判断什么最重要
- 把零散资料整理成文档、表格、方案
- 在真实工具之间来回切换完成任务
- 对复杂任务给出更简洁但更有效的结果
如果你平时会让模型做调研、方案整理、数据分析、文档生成,那么 GPT-5.5 的价值不只是“更聪明”,而是“更省来回沟通成本”。
3. 更擅长工具使用和电脑操作
这是这次发布里非常值得注意的一点。OpenAI 明确把 GPT-5.5 的进展和 computer use、tool use 放在了一起讲,说明模型能力已经不再局限于文本框输出。
它更接近下面这种工作流:
- 看懂屏幕上的内容
- 点击、输入、切换页面
- 调用外部工具
- 检查中间结果
- 继续下一步
这也是为什么 OpenAI 会把 Codex 和 ChatGPT 放在同一条能力叙事里讲,因为他们在推动的其实是“模型直接完成工作”这件事。
4. 更高的推理效率
OpenAI 这次特别强调了效率,而不是只强调能力上限。官方给出的信号是:
- GPT-5.5 在真实服务中的单 token 延迟与 GPT-5.4 接近
- 但在很多任务上能达到更高水平
- 在 Codex 场景中,经常能用更少 token 完成相同任务
这很关键。因为很多更强的模型往往意味着更慢、更贵、更难实际落地;GPT-5.5 想解决的是“更强,但别明显更难用”。
关键评测成绩,哪些最值得看
OpenAI 官方页面放了大量评测数据,我觉得最值得普通读者和开发者关注的是下面几组。
代码与工程任务
- Terminal-Bench 2.0:GPT-5.5 为 82.7%,GPT-5.4 为 75.1%
- SWE-Bench Pro(Public):GPT-5.5 为 58.6%,GPT-5.4 为 57.7%
- Expert-SWE(Internal):GPT-5.5 为 73.1%,GPT-5.4 为 68.5%
从这几项看,GPT-5.5 的提升不只是刷某一个榜,而是更偏向长链路、真实工程任务的整体增强。
知识工作与电脑操作
- GDPval:GPT-5.5 为 84.9%,GPT-5.4 为 83.0%
- OSWorld-Verified:GPT-5.5 为 78.7%,GPT-5.4 为 75.0%
- Toolathlon:GPT-5.5 为 55.6%,GPT-5.4 为 54.6%
- BrowseComp:GPT-5.5 为 84.4%,GPT-5.4 为 82.7%
- Tau2-bench Telecom:GPT-5.5 为 98.0%,GPT-5.4 为 92.8%
如果你更看重“能不能把工作做完”,而不是只看抽象智力题,这组数据比纯学术 benchmark 更有参考价值。
科研与学术任务
- FrontierMath Tier 1-3:GPT-5.5 为 51.7%,GPT-5.4 为 47.6%
- FrontierMath Tier 4:GPT-5.5 为 35.4%,GPT-5.4 为 27.1%
- GPQA Diamond:GPT-5.5 为 93.6%,GPT-5.4 为 92.8%
- Humanity’s Last Exam(with tools):GPT-5.5 为 52.2%,GPT-5.4 为 52.1%
这一部分说明 GPT-5.5 在高难度推理和研究任务上继续前进,但 OpenAI 这次真正想讲的重点,依然不是单点学术考试,而是“持续推进复杂工作的能力”。
安全与发布策略
OpenAI 在发布页里也强调了安全措施:
- 使用了迄今为止更强的一套 safeguards
- 覆盖完整的 safety 与 preparedness 评估框架
- 与内部、外部红队合作测试
- 对高级网络安全与生物能力做了针对性测试
- 在正式发布前收集了近 200 家早期合作伙伴的真实反馈
这部分的信号很明确:OpenAI 认为 GPT-5.5 的能力提升已经触及更强的现实执行面,因此发布节奏和安全约束也同步加强。
现在谁能用到 GPT-5.5
按照 OpenAI 官方页面的信息:
- 2026 年 4 月 23 日当天,GPT-5.5 已向 ChatGPT 和 Codex 中的 Plus、Pro、Business、Enterprise 用户逐步开放
- GPT-5.5 Pro 则面向 Pro、Business、Enterprise 用户逐步开放
- 2026 年 4 月 24 日更新后,GPT-5.5 和 GPT-5.5 Pro 已进入 API
这意味着,如果你是普通 ChatGPT 订阅用户、企业用户,或者本身就在用 Codex / API,这次更新都和你直接相关。
价格信号怎么看
OpenAI 官方在页面中提到,GPT-5.5 的价格高于 GPT-5.4,但也强调它更智能、而且 token 使用效率更高。在 Codex 里,官方特别指出它通常能用更少 token 交付更好的结果。
这件事的实际含义是:
- 如果你只看单价,GPT-5.5 不一定更便宜
- 如果你看完成同一个任务的总成本,结果可能未必更贵
- 对需要长流程、多次试错的工作来说,效率提升可能比单次调用价格更重要
这次发布对普通用户意味着什么
我自己的判断是,GPT-5.5 的意义主要有三层。
第一层:AI 编程继续从“补全”走向“代理”
以后比较模型时,可能不能只看谁写一个函数更快,而要看谁能把一个需求从分析、编码、测试到修复整段推进下去。
第二层:知识工作自动化会更实用
真正高频的场景不是“问一个问题”,而是“交付一个结果”。谁更能把杂乱输入变成可靠输出,谁就更容易进入真实工作流。
第三层:工具使用会成为默认能力
模型本身的语言理解能力当然重要,但接下来更关键的是它能不能使用浏览器、终端、编辑器、表格、企业系统,把动作真的做出来。
一句话总结
GPT-5.5 不是一次单纯的参数升级,而是 OpenAI 继续把模型推进为“可以长期接管复杂工作流”的版本。对开发者来说,它更像一个更可靠的代码代理;对知识工作者来说,它更像一个更会用工具、更会交付结果的数字同事。
如果你关注 AI 编程、Codex、ChatGPT 企业协作,或者想判断“下一代模型到底更适合拿来干活了吗”,GPT-5.5 这次发布值得认真看。
参考链接
- OpenAI 官方发布页:https://openai.com/index/introducing-gpt-5-5/