← 返回 Blog

Sonnet 5 上手实测:Humanity's Last Exam 仅差 Opus 0.5 个百分点,"打工皇"换人了?

整体来看,在绝大多数基准测试中,Sonnet 5 的能力都处于 Opus 4.8 的 90%-100% 区间。仅在 SWE-bench Pro 编程测试中差距稍大,为 63.2% 对 69.2%,但这一成绩已远超上代 Sonnet 4.6 的 58.1%,也高于 GPT-5.5 的 58.6%。

ClaudeClaude CodeClaude Sonnet 5

中端模型直逼旗舰边界 Sonnet 5 “人类终考” 与旗舰仅差 0.5 分

将 Claude Sonnet 5 与 Anthropic 旗下旗舰模型 Opus 4.8 的测试数据并置对比,很容易生出一种直观感受:这就像百米赛道上的顶尖角逐,第二名与头名的差距,不过短短半个身位。

在号称 “人类最后测试” 的跨学科推理基准 Humanity's Last Exam 中,搭载工具调用能力的 Sonnet 5 取得 57.4% 的成绩,Opus 4.8 为 57.9%——0.5 个百分点的差距,微小到几乎可以忽略。同期同场测试中,GPT-5.5 得分 52.2%,Gemini 3.1 Pro 得分 51.4%。这也意味着,Anthropic 自家的中端模型,不仅性能超越了竞品的旗舰产品,更几乎追平了自家旗舰的水准。

这样的逼近并非孤例。在知识工作基准测试 GDPval-AA v2 上,Sonnet 5 拿到 1618 分,以 3 分优势反超 Opus 4.8 的 1615 分;桌面操控测试 OSWorld Verified 中,二者成绩分别为 81.2% 与 83.4%,差距收窄至 2.2 个百分点;终端操作基准 Terminal-Bench 2.1 测试里,Sonnet 5 以 80.4% 对 82.7% 的表现,与旗舰差距不足 2 个百分点。

整体来看,在绝大多数基准测试中,Sonnet 5 的能力都处于 Opus 4.8 的 90%-100% 区间。仅在 SWE-bench Pro 编程测试中差距稍大,为 63.2% 对 69.2%,但这一成绩已远超上代 Sonnet 4.6 的 58.1%,也高于 GPT-5.5 的 58.6%。

旗舰能力加速下沉 “打工皇帝” 迎来迭代

“打工皇帝” 这一业内称呼,向来不属于参数最顶尖的模型,而是归于性能够用、成本可控、能承接高频日常工作的高性价比产品。过去很长一段时间里,这一位置由 Sonnet 3.5/3.6/3.7 系列占据 —— 它们是首批在编程与工具调用领域展现出突出能力的中端模型。但此前多轮迭代中,核心能力跃升多集中于 Opus 旗舰产品线,Sonnet 系列与旗舰的差距曾逐步拉开。

Sonnet 5 的推出,正是为了填补这一距离。Anthropic 在发布文档中写道,Sonnet 5 具备自主规划能力,可调用浏览器、终端等工具,以 “自主模式” 完成复杂任务,而这样的能力 “在几个月前还需要更大、更昂贵的模型才能实现”。这句话的潜台词十分清晰:大模型的旗舰级能力正在向中端产品渗透,且下沉速度远超行业预期。

从技术层面看,Sonnet 5 从底层重构了多轮推理的自主执行能力。据 Anthropic 官方介绍,该模型可自主编写测试用例、自行排查修正问题,接收到任务后能像真正的智能体一样推进全流程。Zapier 工程师 Daniel Shepard 的实测显示,在 “更新 Salesforce 账户等级→向企业客户发送通知邮件” 这类典型的两步智能体任务中,前代 Sonnet 模型常会中途中断,需人工介入接续;而 Sonnet 5 可全程自主运行,无需额外提示便能主动校验自身输出结果。

AI 编程平台 Factory 工程师 Zimu Li 对此评价道,Sonnet 5 为智能体应用搭建了扎实的执行能力底座,能够在复杂的技术环境中持续完成代码编写、工具调用、故障排查等工作,尤其适配需要长期跟进、技术细节要求高的工作流。

隐性成本需留意 新分词器带来计费变化

“性能逼近旗舰、价格仅为六成” 的标签,让 Sonnet 5 甫一发布便受到广泛关注,但这场升级背后的成本细节,同样值得开发者留意。

开发者 Simon Willison 通过实测发现,将同一段文本分别输入新旧两款模型计费,尽管 Sonnet 5 的标注单价与上代持平 —— 输入为 3 美元 / 百万 token、输出为 15 美元 / 百万 token,但实际账单中的 token 消耗量上涨了约 30%。这一变化的核心原因,是 Sonnet 5 启用了全新的分词器(tokenizer),相同的英文文本会被切分为更多数量的 token,标注单价不变的前提下,实际调用成本会出现隐性上涨。

Anthropic 显然考虑到了这一过渡影响,因此推出了为期两个月的推广促销价:输入 2 美元 / 百万 token、输出 10 美元 / 百万 token,相当于标准定价的六折。但需要注意的是,促销政策将于 8 月 31 日截止,此后价格回归标准档位,叠加分词器带来的 token 数量增长,实际调用成本将较上代模型有一定幅度的上升。

正如业内将 Sonnet 系列比作撒哈拉耳廓狐,这只身形灵巧的小狐狸固然战斗力十足,但它的 “进食方式” 变了,使用者的成本核算逻辑也得随之调整。

旗舰定位收窄 中端接棒市场主力

随着 Sonnet 5 的能力跃升,Opus 4.8 的市场处境也变得微妙起来。它依然是攻克高难度核心任务的首选 —— 面对那些 “必须动用顶级能力” 的复杂场景,旗舰模型的价值依然不可替代。但在绝大多数日常编程、内容创作、智能体应用场景中,Sonnet 5 以当前的价位实现了接近旗舰的表现,让不少企业用户开始重新评估旗舰模型的投入必要性。

Anthropic 将 Sonnet 5 设为免费版与专业版用户的默认模型,这一安排本身就传递了明确的市场信号:对绝大多数用户而言,“足够好用” 比 “绝对顶尖” 具备更高的商业价值。

“打工皇帝” 的交棒已然发生。从性能与成本的综合性价比来看,Sonnet 5 以 Opus 4.8 约六成的标准定价,覆盖了后者九成以上的能力区间,日常工作场景中已很难找到必须启用旗舰模型的刚性理由。但如果企业计划大规模接入 API,仍建议提前核算新分词器带来的成本变化,做好调用策略的调整。

对于有批量调用、多模型适配需求的企业与开发者而言,选择稳定可靠的接入渠道,是平衡性能与成本的关键一步。目前,UseAIAPI 已同步接入全球主流热门大模型,涵盖 Claude 全系列、Gemini、GPT 系列、DeepSeek 等最新产品,支持一站式调用与企业级定制化接入服务,无需复杂配置即可快速落地业务场景。在成本层面,平台专属优惠最高可达官方定价的 50%,能够有效对冲大用量场景下的调用成本压力,让开发者与企业无需为高强度内容生成的算力消耗过度顾虑,更灵活地适配不同业务的模型需求。