← 返回 Blog

Claude Opus 4.7 的 B面:编程分数暴涨,但长上下文直接从 78% 塌到 32%——你的百万 token 代码库还敢喂进去吗?

2026 年 4 月 16 日,Anthropic 正式发布 Claude Opus 4.7。该版本沿用前代定价体系,输入为 5 美元 / 百万 tokens,输出为 25 美元 / 百万 tokens,标配 100 万 tokens 上下文窗口,单次最大输出可达 128K tokens。在官方宣传与基准测试数据加持下,这款模型一度被行业视作编程领域的全新标杆。

ClaudeClaude Opus 4.7 能力分化解析

Claude Opus 4.7 能力分化解析:编程性能大幅提升,长上下文检索能力显著下滑

2026 年 4 月 16 日,Anthropic 正式发布 Claude Opus 4.7。该版本沿用前代定价体系,输入为 5 美元 / 百万 tokens,输出为 25 美元 / 百万 tokens,标配 100 万 tokens 上下文窗口,单次最大输出可达 128K tokens。在官方宣传与基准测试数据加持下,这款模型一度被行业视作编程领域的全新标杆。

从公开评测结果来看,Opus 4.7 多项核心能力实现跨越式升级:

  • 在 SWE-bench Verified 榜单中,得分从 80.8% 提升至 87.6%,位居公开模型首位;
  • 在更贴合生产场景的 SWE-bench Pro 测试中,成绩从 53.4% 上涨至 64.3%,单代提升 11 个百分点,大幅领先 GPT-5.4(57.7%)与 Gemini 3.1 Pro(54.2%);
  • 视觉解析能力同步增强,图像有效分辨率从不足 100 万像素提升至约 375 万像素,最长边尺寸达到 2576 像素,整体规格提升三倍以上。

发布初期,广大开发者普遍认为,Opus 4.7 实现了全方位代际迭代,AI 编程应用迎来新的发展阶段。然而,基于真实长文档场景的实测结果,却揭开了这款模型隐藏的明显短板。

一、长上下文检索实测:准确率出现大幅下滑

业内采用MRCR v2(8-needle 多针检索) 标准开展长上下文能力测试,该测试模拟在海量文本中定位多条高度相似信息,是检验模型长文本精准检索能力的核心指标。对比 Opus 4.6 与 Opus 4.7 两代模型的测试数据,性能滑坡问题十分突出:

表格

测试环境Opus 4.6 得分Opus 4.7 得分分数跌幅
256K 上下文91.9%59.2%32.7 个百分点
1M 上下文78.3%32.2%46.1 个百分点

数据可见,在 100 万 tokens 的超大上下文场景下,Opus 4.7 的检索准确率近乎腰斩。除此之外,代表联网文档解析能力的 BrowseComp 测试,得分也从 83.7% 降至 79.3%,在主流三款大模型中排名靠后。

二、官方主动提示风险 建议旧版本作为兜底方案

此次性能下滑并非第三方偶然测试结果,Anthropic 在官方发布的 System Card 文档中,也直面了这一问题,甚至给出了罕见的业务回退建议。文档第 47 页明确表述:Opus 4.6 的 64k 深度推理模式,在长上下文多针检索任务中表现全面优于 Opus 4.7。对于依赖长文档检索功能的线上生产系统,建议保留 Opus 4.6 作为备用兜底方案。

官方主动建议用户不要全面迁移至新版本,这在行业内十分少见,也从侧面印证了新版模型长上下文能力的实质性倒退。

针对性能下滑的问题,Anthropic 提出解释,认为 MRCR v2 测试依靠堆砌大量干扰项出题,无法真实反映长上下文的实用价值,平台也已逐步淘汰该评测标准。但这一说法并未得到行业社区的认可。开发者普遍提出质疑:若评测方式本身存在缺陷,为何 Opus 4.6 能够稳定发挥,而新版本表现大幅变差?业内推测,新版模型的安全对齐、防护机制迭代,可能间接改变了模型的注意力分配逻辑,最终造成长文本检索能力受损。

对于已基于 Opus 4.6 搭建百万 token 代码库审查、跨周期文档溯源、尽调报告比对等业务的企业而言,现阶段务必重新完成工作流验证,规避线上故障风险。

三、能力分化的实际影响:区分应用场景规避隐性风险

需要明确的是,Opus 4.7 并非整体能力下降,而是呈现出明显的能力分化。在工程执行层面,它的优势进一步放大:BFS 1M 测试成绩从 41.2% 提升至 58.6%,在代码编写、智能体规划、自主校验等场景表现更为出色。

其短板主要集中在长文档精确定位类任务中。当关键代码注释、合同条款、业务约束等核心信息,落在百万 token 文档 40% 至 60% 的中段位置时,模型极易出现信息遗漏。受 “中段信息衰减(Lost in the Middle)” 效应影响,模型会优先选取文本首尾内容生成答案,输出结果看似逻辑通顺、毫无破绽,实则缺失核心关键信息。这类隐性错误远比明显的输出乱码更具威胁,工作人员往往难以察觉问题所在。

四、场景化选型指南:分层部署发挥两代模型优势

结合两代模型的能力特点,按照业务类型分层选用、混合部署,是当前最稳妥的落地方案。

表格

核心业务任务推荐主力模型选型原因
跨文件代码重构、复杂智能体工作流、代码生成与自主校验Opus 4.7该版本编程与工程执行能力行业领先,SWE-bench Pro 测试成绩具备实打实优势
长文档检索、全上下文信息定位、跨页合同条款比对以 Opus 4.6 为主,4.7 作为辅助Opus 4.6 在百万级上下文多针检索场景准确率远超新版,可靠性更强
同时包含检索、重构等复合型任务API 层设置任务分类路由简单检索类请求调度至 4.6,复杂工程类请求调度至 4.7,兼顾性能与稳定性

如今的 Opus 4.7,已然从 “全能型模型” 转变为定向优化的专业工具。它如同一把高精度手术刀,在编程工程领域锋芒毕露,却在长上下文精准检索方面存在明显短板。

纵观当前大模型行业格局,不存在面面俱到的 “全能选手”,每一款模型都有自身擅长的应用领域。企业选型的核心,不在于单纯评判模型强弱,而是精准匹配自身业务场景,选择对应领域的优质工具,并针对复杂业务做好多版本、多模型的兼容预案。

为帮助各类企业灵活选用全球主流大模型,根据不同业务场景完成模型分层部署,UseAIAPI 打造了一站式大模型接入服务平台。平台全面支持 Gemini、Claude、ChatGPT、DeepSeek 等多款前沿大模型,统一接口即可快速调用全系列服务,无需复杂的多渠道对接与部署调试。平台可结合代码开发、长文档解析、智能检索等不同业务需求,提供定制化调度方案与企业级技术服务。在价格方面,平台所有模型服务均可享受低至官方原价五折的长期优惠,有效降低高强度、大流量 AI 调用带来的成本压力,助力企业高效搭建稳定、经济的 AI 应用体系。