OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析

4月24日凌晨,OpenAI 正式发布了 GPT-5.5 模型。作为 GPT-5 系列迄今为止最大的更新,GPT-5.5 在保持高智能水平的同时,显著优化了 Token 消耗效率。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图

核心亮点:更高智能,更低 Token 消耗

根据 Artificial Analysis 的 Coding Agent Index 数据,GPT-5.5 达到了最高智能水平,且在处理复杂任务时所需的 Token 数量明显少于同级别竞品。尽管其 API 定价为每百万 Token $5/$30(是 GPT-5.4 价格的 2 倍),但由于效率提升,整体成本效益依然具有竞争力。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图1

可用性与定价

  • ChatGPT 用户:GPT-5.5 目前已向付费用户开放;GPT-5.5 Pro 则面向 Pro、Business 和 Enterprise 用户开放。
  • API 服务:即将上线。定价大幅上涨至 $5/$30(每百万 Token),约为 GPT-5.4 价格的两倍。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图2

性能基准测试对比

OpenAI 提供了包含 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro 在内的 9 项核心指标对比表。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图3

在第三方评估机构 Artificial Analysis 的 Intelligence Index(基于 10 项 eval 加权平均)中,GPT-5.5 在同等输出 Token 量下获得了最高的智能得分,且总 Token 消耗明显低于其他模型。需要注意的是,虽然单次调用更省 Token,但由于单价翻倍,总体费用可能仍高于旧版本。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图4

编程与工程能力

  • Terminal-Bench 2.0(复杂命令行工作流):GPT-5.5 得分为 82.7%,优于 GPT-5.4 的 75.1% 和 Claude Opus 4.7 的 69.4%。
  • SWE-Bench Pro(真实 GitHub Issue 解决):GPT-5.5 得分为 58.6%,略高于 GPT-5.4 的 57.7%。Claude Opus 4.7 报出 64.3%,但 Anthropic 承认部分问题存在记忆化现象。
  • Expert-SWE(内部长周期编码任务):在中位人类完成时间为 20 小时的任务中,GPT-5.5 得分为 73.1%,高于 GPT-5.4 的 68.5%。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图5

在 Codex 环境中,GPT-5.5 支持从实现、重构到调试、测试的完整工程工作流,上下文窗口达到 400K。

知识工作与日常操作

除了编程,GPT-5.5 在日常电脑操作和知识工作方面也有显著提升:

  • GDPval(44 个职业知识工作测试):胜出或平手率为 84.9%,优于 GPT-5.4 的 83.0% 和 Claude Opus 4.7 的 80.3%。
  • OSWorld-Verified(独立操作真实电脑环境):得分为 78.7%,高于 GPT-5.4 的 75.0%。
  • Tau2-bench Telecom(复杂客服工作流,无 Prompt 调优):得分为 98.0%,显著高于 GPT-5.4 的 92.8%。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图6

GPT-5.5 Pro 在早期测试中也显示出在业务、法律、教育和数据科学方向上比 GPT-5.4 Pro 更全面、准确。

OpenAI 内部应用案例

OpenAI 公司内部超过 85% 的员工每周都在使用 Codex,覆盖工程、财务、市场、公关、数据科学和产品管理等多个部门:

  • 公关团队:分析了 6 个月的演讲邀请数据,建立了打分和风险框架,实现了低风险请求自动处理,高风险请求人工审核。
  • 财务团队:审核了 24,771 份 K-1 税表(共 71,637 页),比去年提前两周完成任务。
  • GTM 团队:通过自动生成周报,每周节省 5-10 小时工作时间。

科学研究突破

GPT-5.5 在科研领域的应用也取得了进展:

  • GeneBench(遗传学和定量生物学数据分析):GPT-5.5 得分为 25.0%,GPT-5.4 为 19.0%,GPT-5.5 Pro 达到 33.2%。
  • BixBench(生物信息学和数据分析 Benchmark):GPT-5.5 得分为 80.5%,高于 GPT-5.4 的 74.0%。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图7

此外,GPT-5.5 的内部版本配合自定义工具链,发现了关于 Ramsey 数(组合数学核心对象)的一个新证明,该结果随后在 Lean 中完成了形式化验证。

OpenAI 发布 GPT-5.5:智能水平登顶,编码效率与成本深度解析插图8

网络安全与生物安全

根据 OpenAI Preparedness Framework,GPT-5.5 的网络安全能力和生物/化学能力均被评为 High 级别(未达 Critical 级别):

  • CyberGym:得分 81.8%,优于 GPT-5.4 的 79.0% 和 Claude Opus 4.7 的 73.1%。
  • CTF 挑战任务(内部扩展版):得分 88.1%,高于 GPT-5.4 的 83.7%。

与此同时,OpenAI 推出了新的生物安全漏洞赏金计划。规则要求参与者找到一条“通用越狱 Prompt”,在 Codex Desktop 的干净对话中一次性通过全部 5 个生物安全问题且不触发审核,即视为越狱成功。

© 版权声明
THE END
喜欢就支持以下吧
点赞3赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容