
Terminal-Bench 2.1 得分提升 13.4 个百分点 Sonnet 5 加速 Agent 编程能力普惠落地
Claude Sonnet 5 在 Terminal-Bench 2.1 基准测试中取得 80.4% 的成绩,较上代 Sonnet 4.6 的 67.0% 大幅提升 13.4 个百分点,是本次 Anthropic 官方披露的所有基准测试中涨幅最大的一项。作为对比,旗舰级模型 Opus 4.8 在该测试中得分为 82.7%,二者差距仅为 2.3 个百分点。
如果仅关注 SWE-bench Pro 测试中 5.1 个百分点的提升,很容易忽略 Sonnet 5 此次迭代的核心价值。SWE-bench 考察的是模型修复单个代码问题的单点能力,而 Terminal-Bench 衡量的是模型在真实终端环境中,自主完成多步智能体任务的全流程表现,后者才是检验 Agent 编程落地价值的核心标尺。
链式执行贴近真实场景 测试标准严于单点代码任务
SWE-bench 的测试模式相对明确:为模型提供完整代码仓库与问题描述,要求模型定位漏洞、编写补丁并通过测试,属于输入输出边界清晰的单点任务,中间执行路径相对固定。
Terminal-Bench 2.1 则模拟真实的终端与命令行工作环境,模型面对的不是单一代码文件,而是一整套完整的开发环境。它需要自主查看目录结构、读取文件内容、检索关键信息、运行测试获取报错、编辑调整代码,再反复验证结果。每一步的输出都是下一步的输入,任何一个环节判断失误,都会导致整条任务链中断。
这种测试考察的不是单纯的代码编写能力,而是在真实开发场景中自主完成工作的综合执行能力。Sonnet 5 在此项测试中实现 13.4 个百分点的大幅跃升,意味着其多步自主执行能力实现了质的突破。
自主执行能力全面升级 中端模型具备旗舰级 Agent 表现
Anthropic 官方将 Sonnet 5 定位为 “迄今最具智能体特质的 Sonnet 模型”,具备自主制定计划、调用浏览器与终端工具、端到端推进任务的能力。官方文档中明确提及,这样的能力 “在几个月前还需要更大、更昂贵的模型才能实现”,清晰传递出旗舰级 Agent 能力正在向中端产品快速下沉的行业趋势。
早期测试反馈也验证了这一能力升级。AI 编程平台 Factory 的工程师表示,Sonnet 5 为智能体应用搭建了扎实的执行能力底座,能够在复杂的技术环境中持续完成代码编写、工具调用、故障排查等工作,尤其适配需要长期跟进、技术细节要求高的开发工作流。自动化平台 Zapier 的测试显示,在 “更新 Salesforce 客户账户等级→向企业客户发送通知邮件” 这类典型的两阶段智能体任务中,前代模型常会中途中断、需人工接续,而 Sonnet 5 可全程自主完成,无需额外人工介入。
从编写单段代码片段,到自主走完多步全流程任务,Sonnet 5 的能力升级,标志着 Agent 编程正在从技术概念走向规模化落地应用。
性价比优势凸显 Agent 编程从旗舰专属迈入普及阶段
业内提及的 “Agent 编程元年” 并非空泛概念,其核心标志就是核心能力从高端旗舰产品,下沉到大众可及的中端产品序列。
据 Anthropic 的产品迭代脉络,早期的 Claude Sonnet 3.5、3.6、3.7 系列,是首批展现出突出编程与工具调用能力的中端模型,但此前智能体能力的显著提升主要集中在 Opus 旗舰产品线。开发者若要使用成熟的智能体能力,需要承担旗舰模型的调用成本。
Sonnet 5 的出现打破了这一格局。除了 Terminal-Bench 2.1 上逼近旗舰的表现,该模型在 SWE-bench Pro 测试中达到 63.2%,领先同级别竞品;在知识工作基准 GDPval-AA v2 测试中,更是以 1618 分反超 Opus 4.8 的 1615 分。定价层面,Opus 4.8 标准定价为输入 5 美元 / 百万 token、输出 25 美元 / 百万 token,Sonnet 5 标准定价仅为输入 3 美元 / 百万 token、输出 15 美元 / 百万 token,推广期内更是低至输入 2 美元 / 百万 token、输出 10 美元 / 百万 token。以约六成的成本,获得九成以上的旗舰级智能体能力,性价比优势十分显著。
目前,Sonnet 5 已成为 Claude 免费版与专业版用户的默认模型,数百万开发者日常即可使用具备高等级终端执行能力的模型。Agent 编程不再是少数场景的高端功能,正在成为开发者群体的通用生产工具。
成本细节需留意 能力下沉趋势明确
需要注意的是,Sonnet 5 启用了全新的分词器,相同文本切分出的 token 数量较前代增加约 30%,标注单价不变的前提下,实际调用成本会有一定幅度的上升。
但即便考虑这一因素,Terminal-Bench 测试中 13.4 个百分点的能力跃升仍是确定的事实,它直观印证了 Agent 编程的能力门槛正在快速下移。仅在一年前,只有旗舰模型能在终端环境中勉强独立完成多步任务,如今中端模型已能实现接近旗舰的表现,且这一迭代速度还在持续加快。
Sonnet 5 在 Terminal-Bench 2.1 上取得的 80.4%,不只是一个单项测试分数,更是 Agent 编程从小范围探索走向大众化应用的关键临界点。随着技术的持续迭代,智能体编程的落地应用速度,将远超行业普遍预期。
对于广大开发者与企业用户而言,在模型能力快速迭代的当下,选择灵活、高性价比的接入渠道,是高效应用前沿 AI 能力的关键。目前,UseAIAPI 已同步接入 Claude 全系列、Gemini、GPT 系列、DeepSeek 等全球主流热门大模型,覆盖智能体编程、内容创作、数据分析等多元应用场景,支持一站式便捷调用与企业级定制化接入服务,无需复杂部署即可快速适配各类业务需求。在调用成本方面,平台专属优惠最高可达官方定价的 50%,能够有效降低大用量场景下的算力消耗压力,帮助开发者与企业以更可控的成本,灵活运用前沿 AI 能力赋能业务发展。