← 返回 Blog

别只看跑分:Opus 4.7 的"严格听话"才是杀手锏,GPT-5.4 这套反而吃亏

2026 年 4 月 16 日,Anthropic 正式发布 Claude Opus 4.7。社交媒体上熟悉的跑分表立刻刷屏:SWE-bench Verified 得分 87.6%,较上代提升近 7 个百分点;SWE-bench Pro 更是从 53.4% 飙升至 64.3%。对跑分敏感的媒体随即拉来 GPT-5.4 和 Gemini 3.1 Pro 做横向对比,讨论谁才是 "最强编程大模型"。

ClaudeClaude Opus 4.7

跑分输赢不重要:Claude Opus 4.7 的 "刚性" 才是工程级应用的核心

2026 年 4 月 16 日,Anthropic 正式发布 Claude Opus 4.7。社交媒体上熟悉的跑分表立刻刷屏:SWE-bench Verified 得分 87.6%,较上代提升近 7 个百分点;SWE-bench Pro 更是从 53.4% 飙升至 64.3%。对跑分敏感的媒体随即拉来 GPT-5.4 和 Gemini 3.1 Pro 做横向对比,讨论谁才是 "最强编程大模型"。

但这些讨论全都错过了 Opus 4.7 真正的核心变化 —— 它被藏在一个最不起眼的角落:指令遵循机制彻底切换到 "字面执行" 模式。

Anthropic 在官方提示词工程指南和发布材料中反复强调:

"Claude Opus 4.7 interprets prompts more literally… It will not silently generalize an instruction from one item to another, and it will not infer requests you didn't make."

翻译过来就是:它不会把针对 A 项的指令 "自动推广" 到 B 项,也不会替你脑补出任何没有明确写出来的请求。

你没有听错。Anthropic 花数月时间训练出的新旗舰,最重要的升级不是 "变得更聪明了",而是变得更 "刚性" 了 —— 变得更严格、更 "按字面意思执行" 了。

一、平均维度我们赢不了,但工程精度上赢了

看跑分的人只盯着 SWE-bench;做工程的人却在关注另一组更有价值的数据:

表格

测试维度Opus 4.6Opus 4.7提升幅度
CursorBench(真实 IDE 编码场景)58%70%+12pp
乐天工程团队实测生产级任务解决量基准值3 倍+200%
Notion AI 团队效率测试基准值+14%+14%
单任务 token 消耗基准值-33%减少 1/3
工具调用错误率基准值-67%降至 1/3

GPT-5.4 在 Terminal-Bench 2.0 上凭借更强的多步推理能力拿到 75.1%,且在 BrowseComp 长文档搜索上以 89.3% 领先,靠的正是灵活推断能力 —— 当你的指令不完整时,它会用 "常识" 脑补你的意图,然后按它认为 "你应该想要" 的方式交付结果。

但代价也正在于此:你永远不知道它到底替你补了哪块脑、又是在哪里补的。

而 Opus 4.7 的做法是:不补。你让它跨 16 个文件做重构,它就严格按照你写明的任务清单执行 —— 凌晨三点没人值班,它也不会 "自作主张" 额外操作,但也绝对不会漏掉你明确写进验收条件的任何一项。

数据会撒谎,但工程不会。

这种特性与它的孪生参数effort直接相关。Anthropic 明确传达了一个信号:effort参数对 Opus 4.7 的重要性超过了所有前代 Opus。新增的xhigh档(介于 high 与 max 之间)就是专门为编码和 Agent 长链路任务量身打造的 —— 在 xhigh 模式下,模型会启动深层推理链,消耗可观的 token 去想清楚决策路径,然后严格逐项执行你列出的清单。它有 "深度推理" 能力,但绝不越过你划定的边界。

二、GPT-5.4 把 "软提示词" 当朋友,Opus 4.7 把它当毒药

这个范式差异在提示词层面表现得最为尖锐:

表格

提示词写法GPT-5.4 的理解Opus 4.7 的理解
"可以考虑异步化优化连接池"约等于 "动手修改""考虑" 就是考虑 —— 它老老实实在思考过程中 "考虑" 完,一行代码都不动,因为你没写 "必须执行"
列了 3 个任务,没提第 4 个关联项可能顺手帮你做了(推断 "显然相关")严格只做你列出的 3 项 —— 不是偷懒,是在等你把边界画清楚

开发者 Daniel Fulda 在实测中精准捕捉到了这一机制变化:Opus 4.6 的 "宽容" 体现在它会悄悄填补两个漏洞 ——

  1. 隐式工具调用:你在 CLAUDE.md 里写 "检查项目结构",4.6 会实际调用 Glob/Read 工具;4.7 只会把它当字面描述,不做任何 IO 操作
  2. 隐式作用域与异常处理:你说 "警告客户库存延迟,每会话仅警告一次",4.6 可能理解成 "遇到新订单还能再提醒",4.7 则严格只执行一次

所以当开发者抱怨 "Opus 4.7 把我的提示词搞坏了" 时,真相其实是:他们的提示词本来就有漏洞,只是 4.6 一直在替他们填补,而 4.7 拒绝这么做了。

三、你需要的是一个不糊弄你的模型

把 Opus 4.7 推进生产环境后,你的工作流会从 "解释器模式" 切换成 "编译器模式"—— 意图必须写完整、写明确,不能留一大片 "让模型猜" 的模糊区。

  • 如果你的流程高度依赖 GPT-5.4 那种 "聪明推理"—— 需要它把破碎的提示词译成可执行代码、在模糊边界替你拍板、甚至替你读懂未成形的需求 ——Opus 4.7 会让你抓狂,因为它拒绝做任何越界的事
  • 但如果你要的是能独立长跑、不需反复人工纠错的长任务,Opus 4.7 代表的是工程精度的回归:你知道它不会自作聪明,知道它不会漏掉你写明的验收条件,知道它即使出错也是出在你明确写出的约束上 —— 而不是出在某个随机幻觉上

这种确定性,在任何跑分表里都找不到。

四、两张完全不同的脸:两种设计哲学的碰撞

表格

维度GPT-5.4Claude Opus 4.7
核心气质"共情的同事"—— 需求模糊也能给一段能跑的代码"刚性执行者"—— 严格按字面做,不多做也不少做
早期使用快感高(第一版代码写得快)低(你得先把提示词写规范)
规模化后的隐患半夜 debug 发现它在意外边界偷偷做了你不想要的操作凌晨三点无人值守,跨 16 文件的重构照样不出界
最适合阶段产品探索期,需要 "帮我想 / 帮我补"生产交付期,需要 "按规格交付、可审计、可追责"

Opus 4.7 不是 GPT-5.4 的 "替代品",它走的是一条完全相反的技术路线:用严格服从,把语义歧义逐出工程精度之外。在一个人人鼓吹 "大模型什么都能猜" 的时代,Anthropic 选择让模型做减法 —— 只做明确被告知的事,绝不替你多做一件。

这种取向在跑分上不够炫,但在生产环境里,它藏着属于工程师的真正底牌:

一个不糊弄你的模型,比一个总想帮你的模型可靠一万倍。

想要第一时间体验 Claude Opus 4.7 的工程级精准能力,以及 Gemini、GPT、DeepSeek 等全球主流 AI 大模型的最新特性?UseAIAPI为广大企业和开发者提供一站式稳定接入服务。平台全面覆盖全球热门 AI 大模型 API 接口,无需繁琐配置即可快速上手,同时还可根据企业个性化需求提供定制化解决方案,全程保障服务的稳定性与安全性。

在成本方面,UseAIAPI 推出了极具竞争力的专属优惠政策,所有模型 API 调用最低可享官方价格 5 折优惠。无论是独立开发者的日常编码需求,还是企业级的大规模代码重构、多 Agent 系统部署,都能大幅降低算力成本,让你无需为高昂的 AI 使用费用担忧,能够全身心投入到核心业务创新中。