← 返回 Blog

SWE-bench Pro 63.2%!Sonnet 5 编程直接干翻 GPT-5.5,Opus 看了都沉默

近日,Anthropic 发布的 Claude Sonnet 5 模型在权威智能体编程基准测试 SWE-bench Pro 中取得 63.2% 的成绩。作为一款定位中端的产品,这一分数较上代 Sonnet 4.6 的 58.1% 提升 5.1 个百分点。在大模型基准评测领域,5 个百分点的跃升并非小幅波动,而是标志着模型能力从 “可用” 向 “好用” 完成了实质性跨越。

ClaudeClaude CodeClaude Sonnet 5 模型

SWE-bench Pro 测试达 63.2% 中端模型编程能力重塑行业性价比格局

近日,Anthropic 发布的 Claude Sonnet 5 模型在权威智能体编程基准测试 SWE-bench Pro 中取得 63.2% 的成绩。作为一款定位中端的产品,这一分数较上代 Sonnet 4.6 的 58.1% 提升 5.1 个百分点。在大模型基准评测领域,5 个百分点的跃升并非小幅波动,而是标志着模型能力从 “可用” 向 “好用” 完成了实质性跨越。

编程能力跨级跃升 中端表现超越竞品旗舰

横向对比同场测试的其他产品,Sonnet 5 的表现更具行业冲击力。OpenAI 旗舰模型 GPT-5.5 在该测试中得分为 58.6%,被 Sonnet 5 拉开近 5 分的差距;Google 旗下 Gemini 3.5 Flash 得分 55.1%,与 Sonnet 5 存在明显差距。换言之,Anthropic 的中端定位产品,在编程能力维度已经实现了对竞品旗舰级产品的反超。

目前在该榜单上仍领先于 Sonnet 5 的,仅有 Anthropic 自家的旗舰模型 Opus 4.8,其得分为 69.2%,二者相差 6 个百分点。但不容忽视的是,Opus 4.8 的调用价格接近 Sonnet 5 的两倍。以约六成的成本获得九成以上的旗舰级编程能力,其性价比优势在实际生产场景中极具吸引力。

性价比优势凸显 迭代趋势持续收窄旗舰差距

有观点认为,6 分的差距尚不足以称之为超越。但如果从迭代趋势与成本效率两个维度来看,Sonnet 5 带来的行业影响远不止纸面分数。

其一,迭代速度的差距正在快速缩小旗舰与中端的鸿沟。从 Sonnet 4.6 到 Sonnet 5,单次迭代提升 5.1 个百分点,按照这一节奏,后续版本的 Sonnet 模型极有可能进一步逼近甚至跨越当前 Opus 4.8 的能力线。反观旗舰产品线,Opus 4.8 的成绩已停留较长时间,中端产品快速追赶、旗舰产品迭代放缓的趋势下,二者的能力差将持续收窄。

其二,成本效率曲线更适配真实生产需求。Anthropic 官方发布的不同推理强度档位性价比对比显示,在中等推理强度下,Sonnet 5 的成本效率显著优于 Opus 4.8;即便在更高推理强度档位,部分任务中 Sonnet 5 的表现也能与旗舰模型持平。这意味着用户可以用更低的成本开启更高等级的推理模式,获得接近旗舰级的输出效果。

事实上,行业语境中讨论的中端模型 “逆袭”,从来不是指分数上的绝对碾压,而是性价比层面的全面领先。在真实的企业生产环境中,极少有场景会为了 6 个百分点的性能提升,承担近一倍的成本增量。

自主执行能力重构 编程场景实现端到端落地

Sonnet 5 编程能力的大幅提升,根源在于底层自主执行逻辑的重构。Anthropic 在发布文档中提及,Sonnet 5 具备自主任务规划能力,可调用浏览器、终端等工具,以全自主模式推进任务,而这样的能力 “在几个月前还需要更大、更昂贵的模型才能实现”,本质上是旗舰级能力向中端产品的快速下沉。

具体到编程场景,Sonnet 5 能够自主编写测试用例、自行排查并修复代码问题,接收任务后可像真实智能体一样持续推进全流程。AI 编程平台 Factory 工程师 Zimu Li 表示,Sonnet 5 为智能体应用搭建了扎实的执行能力底座,能够在复杂的技术环境中持续完成代码编写、工具调用、故障排查等工作,尤其适配需要长期跟进、技术细节要求高的开发工作流。

自动化平台 Zapier 工程师 Daniel Shepard 的实测也验证了这一点:在 “更新 Salesforce 账户等级→向企业客户发送通知邮件” 这类典型的两步智能体任务中,前代 Sonnet 模型常会中途中断,需要人工介入接续;而 Sonnet 5 可全程自主运行,无需额外提示便能主动校验自身输出结果。

这种端到端的多步任务执行能力,落地到编程场景意味着开发模式的升级:从传统的代码补全进阶为代码完工 —— 从编写单个函数到完成整个功能模块,从修复单个漏洞到完善整套测试集,中间无需反复人工打断、纠偏与重启。

成本与安全细节需关注 产品分层暗藏设计逻辑

Sonnet 5 的能力升级值得关注,但实际落地中的两个细节,同样需要开发者与企业留意。

第一个是隐性成本变化。开发者 Simon Willison 实测发现,将同一段文本分别输入新旧两款模型进行计费,尽管 Sonnet 5 的标注单价与上代持平,但账单显示的 token 消耗量上涨了约 30%。这一变化源于 Sonnet 5 启用了全新的分词器(tokenizer),相同的英文文本会被切分为更多数量的 token,标注单价不变的前提下,实际调用成本会出现隐性上升。

Anthropic 为此推出了为期两个月的推广促销政策作为过渡,促销期内输入 2 美元 / 百万 token、输出 10 美元 / 百万 token。需要注意的是,该促销将于 8 月 31 日截止,届时价格回归标准档位,叠加分词器带来的 token 数量增长,实际调用成本将较上代模型有一定幅度的上升。

第二个是安全能力的分层设计。Anthropic 联合 Mozilla 针对 Firefox 147 的已知漏洞开展测试,结果显示 Sonnet 5 与前代产品一致,对完整漏洞的利用成功率为 0—— 仅能生成零散的攻击代码片段,无法构建可运行的完整利用程序;而 Opus 4.8 在同类测试中展现出成熟的网络攻击能力。Anthropic 明确表示,Sonnet 5 未进行网络安全方向的专项训练,是产品层面的主动规划。

这也意味着,中端模型可以无限逼近旗舰的生产力上限,但其潜在的风险能力被主动管控,Anthropic 正在通过产品分层的方式,实现安全能力的分级落地。

市场格局生变 旗舰定位面临中端挤压

63.2% 这个数字,真正带来冲击的不止是竞品,更包括 Anthropic 自家的旗舰产品线。

当中端模型以六成的价格,覆盖旗舰九成以上的编程能力时,旗舰模型的市场定位便陷入了微妙的处境。它依然是攻克高难度核心任务的首选,适用于那些 “必须动用顶级能力” 的极端复杂场景。但在绝大多数日常编程、内容创作、智能体应用场景中,Sonnet 5 的表现已经足以支撑需求,这让不少企业开始重新评估旗舰模型的投入必要性。

Anthropic 将 Sonnet 5 设为免费版与专业版用户的默认模型,本身就传递了清晰的市场信号:对绝大多数用户而言,“足够好用” 比 “绝对顶尖” 具备更高的商业价值。

SWE-bench Pro 63.2%,不是一个简单的测试分数,而是中端模型逐步渗透旗舰大众市场的标志性节点。正如业内将 Sonnet 系列比作撒哈拉耳廓狐,这只身形灵巧的小狐狸,正凭借极高的性价比,一步步拓展自身的能力边界,改写大模型市场的产品分层格局。

对于计划批量接入大模型能力的开发者与企业而言,在模型能力快速迭代的当下,兼顾选型灵活性与成本可控性是核心诉求。目前,UseAIAPI 已同步接入 Claude 全系列、Gemini、GPT 系列、DeepSeek 等全球主流热门大模型,支持一站式便捷调用与企业级定制化接入服务,无需复杂部署即可快速适配各类业务场景。在调用成本方面,平台专属优惠最高可达官方定价的 50%,能够有效降低大用量场景下的算力消耗压力,帮助企业与开发者在享受最新模型能力的同时,控制整体投入成本。