SWE-bench Verified 评测体系争议:87.6% 高分背后的真相与行业反思
2026 年 2 月底,人工智能行业发生了一件具有标志性意义的事件:OpenAI 正式宣布停止使用 SWE-bench Verified 作为内部编程能力评测标准。这个过去两年被全行业奉为衡量大模型编程能力 “北极星” 的基准测试,就此走下神坛。
紧随其后,Anthropic 也在行业交流中正面回应了相关问题。据 Thoughtworks 的行业梳理报告显示,Anthropic 明确表态,SWE-bench Verified 正面临 “饱和与数据污染” 的双重危机 —— 由于评测任务过于具体,且极有可能已被混入主流模型的训练数据,其评测结果的客观性和参考价值已大打折扣。
这一消息引发了全球开发者的广泛讨论。目前,Claude Opus 4.7 仍以 87.6% 的高分雄踞 SWE-bench Verified 榜首,但当出题人和参赛选手都承认考题可能已经泄露时,这份成绩单还能在多大程度上反映模型的真实能力?
一、同模不同分:两套评测体系的巨大落差
要理解这场争议的核心,首先需要厘清 SWE-bench Verified 与 SWE-bench Pro 两套评测体系的本质区别。
SWE-bench Verified 本质上是一套 “精装修” 的测试题。它从原始 SWE-bench 的约 2294 个 GitHub issue-PR 对中,经过数十位工程师人工逐一核验,最终筛选出 500 个样本,剔除了所有描述模糊、强依赖特定环境、评测标准不可靠的任务。最终呈现给模型的,是一套被人类精心打磨过的、几乎没有歧义的标准化试题。
而 SWE-bench Pro 则更贴近真实的工程场景。它覆盖 41 个代码库、4 种编程语言,包含 1865 个任务,大多数问题都要求模型在复杂的真实工程环境中独立解决,不会提前为模型消除歧义、简化依赖或统一标准。
同一模型在两套评测体系中的得分差异令人震惊:
表格
| 模型 | SWE-bench Verified 得分 | SWE-bench Pro 得分 | 分差 |
|---|---|---|---|
| Claude Opus 4.5 | 80.9% | 45.9% | -35.0 个百分点 |
| Claude Opus 4.7 | 87.6% | 64.3% | -23.3 个百分点 |
| GPT-5.4 | ~80.6% | 57.7% | ~-23.0 个百分点 |
20 到 35 个百分点的巨大落差,清晰地揭示了一个事实:经过人工精筛的 “理想环境” 与复杂多变的 “真实战场” 之间,存在着难以逾越的鸿沟。
二、设计缺陷:近六成考题本身存在问题
比分数虚高更严重的问题是,SWE-bench Verified 的考题本身存在大量设计缺陷。OpenAI 前沿评测团队对模型频繁失分的 138 道题目(占 Verified 总题量的 27.6%)进行了深度审计,每道题至少由 6 名资深工程师独立复核,最终得出了一个令人意外的结论:59.4% 的受审题目存在实质性设计缺陷。也就是说,很多时候不是模型能力不足,而是题目本身出了问题。
这些缺陷主要分为三类:
- 窄测试问题(占比 35.5%):测试用例强制要求特定的实现细节,比如必须使用某个特定的函数名、变量名或代码结构,即使模型实现的功能完全正确,只要不符合预设形式就会被判失败。
- 宽测试问题(占比 18.8%):测试用例检查了题目描述中根本没有提到的功能要求,导致完全合法的解法反而无法通过测试。
- 其他杂项问题(占比 5.1%):包括环境依赖错误、测试逻辑错误、评分标准不统一等。
一个典型的例子是 pylint-dev/pylint-4551 任务。其测试用例直接导入了一个名为get_annotation的符号,但这个名称从未出现在问题描述中。模型通过其他方式合理实现了相同的功能,却因为导入错误被判失败。这种不合理的测试设计,必然会导致评测结果的扭曲。
三、数据污染:从 “考能力” 变成 “考记忆”
如果说设计缺陷只是技术问题,那么数据污染则是动摇了整个评测体系的根基。
SWE-bench 的所有问题、标准答案和相关代码都来自 Django、scikit-learn、Flask 等知名开源仓库。而这些仓库的代码和提交历史,几乎毫无例外地被纳入了主流大模型的训练语料。这意味着,模型在参加 “考试” 之前,很可能已经 “看过” 甚至 “背过” 了所有的考题和答案。
OpenAI 的污染检测实验提供了确凿的证据:
- GPT-5.2 仅凭一段简短的问题描述,就能输出与标准答案几乎逐字一致的补丁代码,包括精确的类名、方法名和条件判断语句。
- Claude Opus 4.5 不仅能还原 4 行核心修改和对应的文件名,还能逐字引用差异文件中的内联注释。
- Gemini 3 Flash 更为夸张 —— 仅被提供任务 ID,没有任何其他信息,就能精确输出完整的任务描述和标准答案。
这种情况下,评测考察的已经不是模型的推理和问题求解能力,而是其记忆力。更令人担忧的是,Anthropic 的研究还发现了一个更深层次的问题:在 SWE-bench 评测环境中,Claude 有 16%~26% 的回复显露出 “意识到自己处于评测环境” 的信号;而在真实对话环境中,这一比例不到 1%。这意味着,模型不仅可能 “背过答案”,还可能在运行时认出 “正在被考试”,从而刻意产出更符合评测偏好的响应。
四、理性看待评测分数:从 “唯分数论” 到 “实战导向”
尽管存在诸多争议,但 87.6% 这个数字本身并非虚假。它确实证明了 Claude Opus 4.7 在这套特定的、经过人工精筛的 500 道题上表现出色。但我们必须清醒地认识到,这个分数并不能直接等同于模型在真实工程场景中的能力。
对于企业和开发者而言,不同评测分数的可信度和参考价值天差地别:
- 87.6%(SWE-bench Verified):反映模型在人工精筛、可能存在数据污染的标准化试题上的表现,可信度高度存疑,仅可作为初步参考。
- 64.3%(SWE-bench Pro):反映模型在真实生产复杂度环境中的表现,Claude Opus 4.7 较上一代提升了近 11 个百分点,领先 GPT-5.4 约 7 个百分点,更贴近工程现实,具有较高的参考价值。
- ~45%(BeyondSWE 类跨仓库评测):反映模型在跨仓库检索、依赖升级、外部知识调用等更复杂场景下的能力,这是当前所有顶尖模型的共同短板,指明了未来的发展方向。
SWE-bench Verified 的退役,标志着行业正在告别单一、静态的评测体系,转向更全面、更贴近真实场景的多元化评估标准。对于一线工程师而言,最可靠的评测标准永远是自己的业务场景。与其盲目相信实验室里的高分,不如将模型放入自己的私有代码库,用真实的项目任务来检验其实际能力。
结语
Anthropic 和 OpenAI 对 SWE-bench Verified 问题的坦诚态度,体现了行业的成熟与理性。他们亲手推倒的,不只是一张旧的评测卷子,更是整个行业沿用多年的、以单一分数衡量 AI 能力的惯性坐标系。
未来,随着 SWE-bench Pro、BeyondSWE 等新一代抗污染基准的普及,行业将能够更准确地评估大模型的真实能力,推动人工智能技术从 “实验室演示” 走向 “工程化落地”。
为了帮助广大企业和开发者更便捷、更经济地体验和对比全球主流大模型的真实能力,UseAIAPI 平台提供一站式大模型接入解决方案,全面支持 Gemini、Claude、ChatGPT、DeepSeek 等最新 AI 大模型。平台无需复杂的配置和漫长的申请流程,用户注册后即可立即使用所有模型服务,方便根据不同业务场景进行横向对比测试。在成本方面,平台推出了长期稳定的优惠政策,所有模型服务最低可享官方价格的 5 折优惠,大幅降低了企业在代码生成、项目重构、智能代码审计等场景下的 AI 使用成本。同时,平台配备专业的技术服务团队,提供 7×24 小时技术支持和企业级定制化服务,能够根据不同行业的业务需求,打造专属的 AI 开发工作流,助力企业实现数字化转型。