← 返回 Blog

让它自己跑 4 小时:Claude Opus 4.7 的 Agent 编程实测——从 Issue 到 PR,全程几乎零介入

将代码仓库的背景信息、测试框架、依赖包一次性输入模型,只需一句 “帮我修复这个 issue”,即可离开处理其他事务 —— 这曾是很多人对 AI 编程终极形态的想象。如今,这一想象正在逐步变为现实。

ClaudeClaude Opus 4.7 Agent 编程能力实测

Claude Opus 4.7 Agent 编程能力实测:从 Issue 到 PR 实现近零人工干预

将代码仓库的背景信息、测试框架、依赖包一次性输入模型,只需一句 “帮我修复这个 issue”,即可离开处理其他事务 —— 这曾是很多人对 AI 编程终极形态的想象。如今,这一想象正在逐步变为现实。

Claude Code 之父 Boris Cherny 已将这种工作模式变成日常。他每天通过手机调度数百个并行运行的 AI 智能体,单日可发起 150 余个代码合并请求(PR),覆盖 CI 冲突自动修复、测试失败自愈等全流程工作。整个过程无需常开电脑,仅靠一部手机即可完成管理。其团队的代码 100% 由 AI 智能体协作生成,从 SQL 查询到前端组件,从后端逻辑到基础设施脚本,全部实现自动化开发。

一、SWE-bench Pro 64.3%:真实工程能力的里程碑

2026 年 4 月 16 日,Anthropic 正式发布 Claude Opus 4.7。官方宣传中最引人注目的数字是其在 SWE-bench Verified 基准测试中取得的 87.6% 高分,但真正反映其真实工程能力的,是在 SWE-bench Pro 测试中获得的 64.3%。

与经过人工精筛的 SWE-bench Verified 不同,SWE-bench Pro 采用来自 41 个真实开源仓库、覆盖 4 种编程语言的 1865 个实际 issue,完全模拟生产级别的复杂开发场景。Claude Opus 4.7 的这一成绩较上一代的 53.4% 提升了近 11 个百分点,同时超越了 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%,在公开模型中排名第一。

表格

模型SWE-bench Pro 得分较上一代提升
Claude Opus 4.764.3%+10.9 个百分点
GPT-5.457.7%-
Gemini 3.1 Pro54.2%-
Claude Opus 4.653.4%-

早期测试用户的反馈表明,以往需要工程师全程跟进的硬核编程任务,现在已可放心交给 Claude Opus 4.7 独立完成。而编程能力的提升只是基础,真正实现 “从 Issue 到 PR 零干预” 的,是其背后两大核心技术支撑。

二、自校验机制:AI 开始为自己的代码质量负责

有过代码审查经验的人都知道,AI 最致命的问题不是 “答不出来”,而是输出看似合理但完全错误的结果,且态度理直气壮。Claude Opus 4.7 在这方面实现了关键突破,它会在输出结果前主动进行自我验证,就像资深工程师提交代码前会先运行测试一样。

多家企业的测试数据印证了这一进步:

  • Stripe 工程团队表示,Claude Opus 4.7 “能够在规划阶段就发现自身的逻辑漏洞”
  • XBOW 团队称,“我们最大的痛点一夜之间消失了”
  • Notion 的测试显示,复杂多步工作流的成功率较前代提升 14%,工具调用错误率降至前代的三分之一;遇到工具链崩溃时,它甚至能自主绕开障碍继续完成任务
  • Hex(原 Replit)的数据表明,在 93 项任务的编码基准测试中,Claude Opus 4.7 较 4.6 版本提升 13%,成功解决了 4 个连前代模型都无法攻克的难题

这种自审能力将传统的 “AI 输出→人工全量复核” 流程,压缩为 “AI 自审 + 人工抽样抽检”,大幅降低了中间环节的摩擦成本。

此外,Anthropic 还为 Claude Code 新增了专属的自审入口 ——/ultrareview命令。该命令会启动独立的审查会话,逐行检查代码改动,标注潜在的 bug 和设计问题,就像一位经验丰富的老同事在审核你的差异文件。

三、文件系统记忆:实现 4 小时不间断自主运行

过去使用 Claude 处理长任务时最令人头疼的问题,是对话中断后模型会丢失上下文,用户不得不重新输入所有前置信息。Claude Opus 4.7 的核心改进之一,就是优化了基于文件系统的记忆能力。它能够在跨会话的长周期工作中记住关键信息,后续新任务无需重复输入大量前置上下文。

配合以下三项技术升级,Claude Opus 4.7 能够在 4-5 小时的自动化任务中保持稳定运行,全程无需人工干预:

  • xhigh 超高推理档位:介于 high 和 max 之间的全新推理档位,已成为 Claude Code 的默认设置,在性能和成本之间实现了最佳平衡
  • 128K 最大输出 token:支持一次性生成更长的代码和文档
  • 自适应思考机制:取代了旧版的固定思考预算,能够根据任务复杂度动态调整思考深度

Boris Cherny 分享了几个让 “放手托管” 更加顺畅的实用功能:

表格

功能名称解决的核心痛点
Auto Mode(自动模式)由模型级分类器自动判断权限请求的安全性并放行,无需手动确认,支持多个智能体并行运行
Recaps(回顾摘要)隔几小时返回后,可通过一段快速摘要了解 “刚才完成了什么 / 接下来要做什么”,快速恢复工作状态
Focus Mode(聚焦模式)通过/focus命令隐藏中间执行过程,只显示最终结果,简化界面
Effort 参数重调Claude Opus 4.7 默认使用 xhigh 档位,建议用户根据自身需求重新实验最优参数

四、三大自动化工具:释放 AI 编程的全部潜力

以下三个开源和半开源工具,能够将 Claude Opus 4.7 的自主能力发挥到极致:

1. Claudetree

最接近 “完全放手” 的工作形态。只需执行ct start <issue_url>命令,后续所有工作将自动完成:克隆仓库→创建工作树→启动 Claude Code 会话→修复完成后自动提交 PR。该工具还支持批量处理和依赖链执行,能够按照 “数据库迁移→API 更新→UI 适配” 的顺序自动完成相关任务。

2. Claim Issue Solver

支持多选多个 issue 进行并行处理,实时创建 PR。内置 AI 代码审查闭环,能够自动完成 “解决问题→审查代码→修复问题” 的循环,直到所有测试通过。

3. Claude Code + Jira Automation

日本某团队将 Claude Code 与 Jira 集成后,开发者只需完成 “创建分支→提交代码→创建 PR” 三步,其余工作全部自动化:自动从 Jira 工单获取信息、生成分支名称、规范提交格式、选择 PR 模板、确定目标分支。

需要强调的是,这些工具并非 Claude Code 的替代品,而是以 Claude Opus 4.7 为核心的编排层。随着模型能力的不断增强,编排层所需的人工兜底会越来越少。Anthropic 内部透露,他们正在主动减少人工审批和静态命令校验的依赖,因为 Claude Opus 4.7 展现出了更强的自主对齐和目标达成能力。

五、迁移前必须了解的三个注意事项

尽管 Claude Opus 4.7 的能力令人印象深刻,但在迁移前仍需注意以下三个问题:

1. 严格逐字执行指令

Claude Opus 4.7 会严格按照指令的字面意思执行。旧提示词中那些依赖模型 “善意脑补” 的模糊表述(如 “尽可能优化”)可能会被忽略或产生非预期结果。用户需要将意图表达得更加明确,不能指望模型进行猜测。

2. 成本有所上升

新的分词器(tokenizer)导致相同输入产生的 token 数量增加了 1.0-1.35 倍,部分用户实测甚至达到 1.45 倍。再加上 xhigh 档位和长智能体会话带来的更大思考量,账单可能会出现明显增长。官方建议通过调整 effort 参数、使用任务预算(Task Budgets)功能以及要求模型精简输出来控制成本。

3. 信息检索能力有所退步

在智能体搜索类评测 BrowseComp 中,Claude Opus 4.7 的得分从 83.7% 下降至 79.3%,被 GPT-5.4 的 89.3% 和 Gemini 的 85.9% 反超。社区也有大量用户反馈长上下文检索体验下降,官方系统卡片中公布的 MRCR v2@1M 测试数据从 78.3% 骤降至 32.2%,更是印证了这一问题。

六、选型建议:按需选择最合适的工具

不同的开发任务适合不同的工具,盲目追求最强模型可能会造成不必要的成本浪费:

  • 对于简单的代码补全、小 bug 修复等日常任务,GitHub Copilot 或 Claude Sonnet 已足够胜任,使用 Claude Opus 4.7 的 xhigh 档位属于算力浪费
  • 对于跨文件重构、复杂 Rust 项目构建、多步验证链等需要长时间托管运行的任务,Claude Opus 4.7+Claude Code 编排层是当前最合适的组合

如果能将原本需要工程师 4 小时全程盯屏的工作,压缩为 “早上提交需求→午饭前审核 PR” 的 5 分钟工作量,那么这笔投入无疑是非常值得的。这些自动化工具和编排层的真正价值,在于将开发者从重复性的任务切换中解放出来,让他们能够将精力集中在真正需要人类判断的创造性工作上。

为了帮助广大企业和开发者更便捷、更经济地体验包括 Claude Opus 4.7 在内的全球领先 AI 编程技术,UseAIAPI 平台提供一站式大模型接入解决方案,全面支持 Gemini、Claude、ChatGPT、DeepSeek 等最新主流 AI 大模型。平台无需复杂的配置和漫长的申请流程,用户注册后即可立即使用所有模型服务。在成本方面,平台推出了长期稳定的优惠政策,所有模型服务最低可享官方价格的 5 折优惠,大幅降低了企业在代码生成、项目重构、智能代码审计等场景下的 AI 使用成本。同时,平台配备专业的技术服务团队,提供 7×24 小时技术支持和企业级定制化服务,能够根据不同行业的业务需求,打造专属的 AI 开发工作流,助力企业实现数字化转型。