← 返回 Blog

别只看 SWE-bench 分数:GPT-5.4 在 Terminal-Bench 反超 13 个百分点——Claude 4.7 的"编程王座"其实有裂缝

数据显示,GPT-5.4 在 Terminal-Bench 2.0 测试中取得 75.1% 的成绩,领先 Claude Opus 4.7 的 69.4% 约 6 个百分点;而最新迭代的 GPT-5.5 更是将这一差距扩大至 13 个百分点,以 82.7% 的得分显著领跑。这组与 SWE-bench 截然不同的结果,引发了全球开发者对大模型能力评价体系的重新思考。

ClaudeClaude 4.7 的"编程王座"

神坛之上的 SWE-bench:6 个百分点差距背后的模型能力真相

长期以来,SWE-bench 基准测试被行业公认为衡量大模型编程能力的 “金标准”,其得分高低往往成为评判模型优劣的核心依据。但随着 AI 智能体技术的快速发展,这套聚焦于 “修复已知漏洞” 的评测体系,其局限性也日益凸显 ——AI 在真实工程场景中的核心价值,从来不是简单地打补丁,而是从零开始完成完整的项目任务。近期发布的 Terminal-Bench 2.0 基准测试结果,为这场关于模型能力的争论撕开了一道清晰的裂缝。

数据显示,GPT-5.4 在 Terminal-Bench 2.0 测试中取得 75.1% 的成绩,领先 Claude Opus 4.7 的 69.4% 约 6 个百分点;而最新迭代的 GPT-5.5 更是将这一差距扩大至 13 个百分点,以 82.7% 的得分显著领跑。这组与 SWE-bench 截然不同的结果,引发了全球开发者对大模型能力评价体系的重新思考。

一、Terminal-Bench 2.0:重新定义真实工程能力

要读懂这组数据的意义,首先需要明确 Terminal-Bench 2.0 与 SWE-bench 的核心区别。Terminal-Bench 2.0 并非传统的代码补全测试,而是一套在沙箱环境中运行的真实终端任务评测体系,包含 89 个覆盖模型训练、Git 分支管理、系统运维等全流程工程场景的测试用例。

以一个典型测试任务为例:测试者仅提供包含 Yelp 评论数据的 data 文件夹,要求模型训练一个 FastText 模型,且最终模型文件大小不超过 150MB、在私有测试集上准确率不低于 0.62。整个过程中,没有任何关于命令行使用、依赖安装或错误处理的提示,模型需要自主完成环境搭建、包管理、脚本运行、日志排查和参数调优等全部步骤,一旦失败只能自行回溯重试,直至完成任务或彻底终止。

与 SWE-bench 相比,Terminal-Bench 2.0 考察的是完全不同维度的能力:

表格

评测维度SWE-benchTerminal-Bench 2.0
任务起点已有完整代码仓库 + 明确的问题描述空文件夹 + 模糊的业务需求
核心动作定向修复代码漏洞(打补丁)从零搭建完整项目(脚手架)
能力考察代码修改的精准度全流程工程规划与执行能力

简单来说,SWE-bench 考的是 “外科医生的手术精度”,而 Terminal-Bench 2.0 考的是 “工程总指挥的全局把控能力”。后者更贴近绝大多数开发者日常工作的真实场景,也更能反映 AI 智能体的实际应用价值。

二、能力差距的核心:两大技术特性决定胜负

两款模型在 Terminal-Bench 2.0 中的表现差异,本质上是其技术路线选择的必然结果。GPT 系列模型之所以能够在该测试中取得领先,主要得益于两大核心技术特性:

统一架构整合全链路工程能力

GPT-5.4 全面继承了 GPT-5.3-Codex 在命令行规划领域的深厚积累(后者在 Terminal-Bench 2.0 中得分 77.3%),并将 “Python 环境搭建→依赖安装→版本冲突处理→编译调试→结果验证” 的完整工程链路,深度整合进模型自身的推理体系中。

这使得 GPT-5.4 输出的命令更加简洁高效,减少了不必要的冗余内容和 token 消耗,同时显著提升了任务迭代的速度。在需要频繁执行终端命令的场景中,这种优势能够转化为实实在在的效率提升。

交互式推理实现过程可控

命令行任务的核心特点是多分支、长错误链,一个简单的依赖安装失败就可能导致整个任务链崩溃。在这一点上,两款模型的技术路线差异明显:

  • Claude Opus 4.7 采用封闭的推理模式,从第一步到最后一步的决策链一旦生成便无法中途修改;
  • GPT-5.4 支持交互式推理,开发者可以在模型生成思考过程中随时介入、纠正方向。

这种细粒度的控制能力,就像为复杂任务加上了一道安全绳,在多步终端调试场景中价值尤为突出。最新发布的 GPT-5.5 进一步强化了这一技术优势,能够在深度推理前先输出思路概述,让开发者在任务执行前就能调整方向,避免不必要的时间和资源浪费。

三、跑分之外的真相:社区反馈揭示的能力短板

光看基准测试的分差还不够全面,Claude Opus 4.7 在实际应用中的社区反馈也呈现出分化态势。部分开发者反映,新版本模型引入的 “逐字严格遵从指令” 策略,虽然提升了指令执行的精准度,但也导致大量为旧版本编写的提示词失效 —— 原本依赖模型 “意会” 补充的隐性需求,现在可能会得到符合字面意思但不符合预期的结果。

在 Chatbot Arena 的编程分类评测中,Claude Opus 4.7 的开发者评审胜率为 53%,这意味着在近半数的编程任务中,其体验与同价位竞品相当或略逊一筹。开源测试框架数据显示,GPT-5.4 将工具调用错误率控制在 30% 以下,单位任务的失败迭代次数显著更少。在金融分析、网络安全、系统工程等多个依赖 AI 智能体的领域,GPT-5.4 的实际使用体验更为流畅。

当然,Claude Opus 4.7 并非没有优势。在大规模代码库重构、跨文件长链工程任务和深度代码审查等场景中,其表现依然处于行业领先地位,视觉处理能力也仍是其核心竞争力之一。

四、模型选择指南:匹配场景才是关键

不同基准测试反映的是模型不同维度的能力,不存在绝对的 “最强模型”,只有最适合特定场景的模型。开发者应根据自身核心工作场景,选择对应的工具:

表格

核心工作场景核心参考指标推荐模型
大规模代码库重构、跨文件长链工程任务、深度代码审查SWE-bench Verified 87.6%、CursorBench 性能跃升Claude Opus 4.7
从零搭建项目、重度依赖多步命令行调度、需要细粒度控制推理过程Terminal-Bench 2.0 75.1%、错误重试周期减少 30%GPT-5.4/GPT-5.5

如果用职场角色来类比,Claude Opus 4.7 更像一位严谨的技术专家,能够精准完成明确的技术任务;而 GPT-5.4/5.5 则更像一位全能的项目负责人,能够在模糊的需求下自主规划并推进全流程工作。长期以来,行业习惯用 SWE-bench 这一把标尺衡量所有大模型的编程能力,但 Terminal-Bench 2.0 的结果告诉我们,不同模型的能力边界从未重叠。真正的选择标准,从来不是哪个模型的跑分更高,而是哪个模型更能匹配自身的真实工作流。

为了帮助广大开发者和企业便捷、高效地体验全球领先的人工智能技术,UseAIAPI 平台提供一站式大模型接入解决方案,全面支持 Gemini、Claude、ChatGPT、DeepSeek 等最新主流 AI 大模型。平台配备专业的技术团队,提供 7×24 小时技术支持和企业级定制化服务,能够根据不同业务场景的需求,为用户打造专属的 AI 接入方案,实现快速部署、稳定运行。在成本方面,平台推出了力度空前的长期优惠政策,所有模型服务最低可享官方价格的 5 折优惠,大幅降低了企业和个人开发者在高强度内容生成、大规模工程开发、智能体部署等场景下的 AI 使用成本,让更多用户能够以更低的门槛享受到前沿 AI 技术带来的效率提升。