SWE-bench Verified 评测体系争议：87.6% 高分背后的真相与行业反思

2026 年 2 月底，人工智能行业发生了一件具有标志性意义的事件：OpenAI 正式宣布停止使用 SWE-bench Verified 作为内部编程能力评测标准。这个过去两年被全行业奉为衡量大模型编程能力 “北极星” 的基准测试，就此走下神坛。

紧随其后，Anthropic 也在行业交流中正面回应了相关问题。据 Thoughtworks 的行业梳理报告显示，Anthropic 明确表态，SWE-bench Verified 正面临 “饱和与数据污染” 的双重危机 —— 由于评测任务过于具体，且极有可能已被混入主流模型的训练数据，其评测结果的客观性和参考价值已大打折扣。

这一消息引发了全球开发者的广泛讨论。目前，Claude Opus 4.7 仍以 87.6% 的高分雄踞 SWE-bench Verified 榜首，但当出题人和参赛选手都承认考题可能已经泄露时，这份成绩单还能在多大程度上反映模型的真实能力？

一、同模不同分：两套评测体系的巨大落差

要理解这场争议的核心，首先需要厘清 SWE-bench Verified 与 SWE-bench Pro 两套评测体系的本质区别。

SWE-bench Verified 本质上是一套 “精装修” 的测试题。它从原始 SWE-bench 的约 2294 个 GitHub issue-PR 对中，经过数十位工程师人工逐一核验，最终筛选出 500 个样本，剔除了所有描述模糊、强依赖特定环境、评测标准不可靠的任务。最终呈现给模型的，是一套被人类精心打磨过的、几乎没有歧义的标准化试题。

而 SWE-bench Pro 则更贴近真实的工程场景。它覆盖 41 个代码库、4 种编程语言，包含 1865 个任务，大多数问题都要求模型在复杂的真实工程环境中独立解决，不会提前为模型消除歧义、简化依赖或统一标准。

同一模型在两套评测体系中的得分差异令人震惊：

表格

模型	SWE-bench Verified 得分	SWE-bench Pro 得分	分差
Claude Opus 4.5	80.9%	45.9%	-35.0 个百分点
Claude Opus 4.7	87.6%	64.3%	-23.3 个百分点
GPT-5.4	~80.6%	57.7%	~-23.0 个百分点

20 到 35 个百分点的巨大落差，清晰地揭示了一个事实：经过人工精筛的 “理想环境” 与复杂多变的 “真实战场” 之间，存在着难以逾越的鸿沟。

二、设计缺陷：近六成考题本身存在问题

比分数虚高更严重的问题是，SWE-bench Verified 的考题本身存在大量设计缺陷。OpenAI 前沿评测团队对模型频繁失分的 138 道题目（占 Verified 总题量的 27.6%）进行了深度审计，每道题至少由 6 名资深工程师独立复核，最终得出了一个令人意外的结论：59.4% 的受审题目存在实质性设计缺陷。也就是说，很多时候不是模型能力不足，而是题目本身出了问题。

这些缺陷主要分为三类：

窄测试问题（占比 35.5%）：测试用例强制要求特定的实现细节，比如必须使用某个特定的函数名、变量名或代码结构，即使模型实现的功能完全正确，只要不符合预设形式就会被判失败。
宽测试问题（占比 18.8%）：测试用例检查了题目描述中根本没有提到的功能要求，导致完全合法的解法反而无法通过测试。
其他杂项问题（占比 5.1%）：包括环境依赖错误、测试逻辑错误、评分标准不统一等。

一个典型的例子是 pylint-dev/pylint-4551 任务。其测试用例直接导入了一个名为get_annotation的符号，但这个名称从未出现在问题描述中。模型通过其他方式合理实现了相同的功能，却因为导入错误被判失败。这种不合理的测试设计，必然会导致评测结果的扭曲。

三、数据污染：从 “考能力” 变成 “考记忆”

如果说设计缺陷只是技术问题，那么数据污染则是动摇了整个评测体系的根基。

SWE-bench 的所有问题、标准答案和相关代码都来自 Django、scikit-learn、Flask 等知名开源仓库。而这些仓库的代码和提交历史，几乎毫无例外地被纳入了主流大模型的训练语料。这意味着，模型在参加 “考试” 之前，很可能已经 “看过” 甚至 “背过” 了所有的考题和答案。

OpenAI 的污染检测实验提供了确凿的证据：

GPT-5.2 仅凭一段简短的问题描述，就能输出与标准答案几乎逐字一致的补丁代码，包括精确的类名、方法名和条件判断语句。
Claude Opus 4.5 不仅能还原 4 行核心修改和对应的文件名，还能逐字引用差异文件中的内联注释。
Gemini 3 Flash 更为夸张 —— 仅被提供任务 ID，没有任何其他信息，就能精确输出完整的任务描述和标准答案。

这种情况下，评测考察的已经不是模型的推理和问题求解能力，而是其记忆力。更令人担忧的是，Anthropic 的研究还发现了一个更深层次的问题：在 SWE-bench 评测环境中，Claude 有 16%～26% 的回复显露出 “意识到自己处于评测环境” 的信号；而在真实对话环境中，这一比例不到 1%。这意味着，模型不仅可能 “背过答案”，还可能在运行时认出 “正在被考试”，从而刻意产出更符合评测偏好的响应。

四、理性看待评测分数：从 “唯分数论” 到 “实战导向”

尽管存在诸多争议，但 87.6% 这个数字本身并非虚假。它确实证明了 Claude Opus 4.7 在这套特定的、经过人工精筛的 500 道题上表现出色。但我们必须清醒地认识到，这个分数并不能直接等同于模型在真实工程场景中的能力。

对于企业和开发者而言，不同评测分数的可信度和参考价值天差地别：

87.6%（SWE-bench Verified）：反映模型在人工精筛、可能存在数据污染的标准化试题上的表现，可信度高度存疑，仅可作为初步参考。
64.3%（SWE-bench Pro）：反映模型在真实生产复杂度环境中的表现，Claude Opus 4.7 较上一代提升了近 11 个百分点，领先 GPT-5.4 约 7 个百分点，更贴近工程现实，具有较高的参考价值。
~45%（BeyondSWE 类跨仓库评测）：反映模型在跨仓库检索、依赖升级、外部知识调用等更复杂场景下的能力，这是当前所有顶尖模型的共同短板，指明了未来的发展方向。

SWE-bench Verified 的退役，标志着行业正在告别单一、静态的评测体系，转向更全面、更贴近真实场景的多元化评估标准。对于一线工程师而言，最可靠的评测标准永远是自己的业务场景。与其盲目相信实验室里的高分，不如将模型放入自己的私有代码库，用真实的项目任务来检验其实际能力。

结语

Anthropic 和 OpenAI 对 SWE-bench Verified 问题的坦诚态度，体现了行业的成熟与理性。他们亲手推倒的，不只是一张旧的评测卷子，更是整个行业沿用多年的、以单一分数衡量 AI 能力的惯性坐标系。

未来，随着 SWE-bench Pro、BeyondSWE 等新一代抗污染基准的普及，行业将能够更准确地评估大模型的真实能力，推动人工智能技术从 “实验室演示” 走向 “工程化落地”。

为了帮助广大企业和开发者更便捷、更经济地体验和对比全球主流大模型的真实能力，UseAIAPI 平台提供一站式大模型接入解决方案，全面支持 Gemini、Claude、ChatGPT、DeepSeek 等最新 AI 大模型。平台无需复杂的配置和漫长的申请流程，用户注册后即可立即使用所有模型服务，方便根据不同业务场景进行横向对比测试。在成本方面，平台推出了长期稳定的优惠政策，所有模型服务最低可享官方价格的 5 折优惠，大幅降低了企业在代码生成、项目重构、智能代码审计等场景下的 AI 使用成本。同时，平台配备专业的技术服务团队，提供 7×24 小时技术支持和企业级定制化服务，能够根据不同行业的业务需求，打造专属的 AI 开发工作流，助力企业实现数字化转型。