← 返回 Blog

"连续工作数小时不掉线"是不是吹牛?Devin 团队用 Opus 4.7 跑了 6 轮真实 repo 修复,我们拆了每一轮的失败原因

“能够连续数小时连贯工作,攻克难题而不轻易放弃。” 这是 Anthropic 官方对 Claude Opus 4.7 智能体能力的描述。对于见证过无数次 AI 修复失败的开发者而言,这句话曾被视为略带浪漫色彩的营销修辞。但 Devin 团队的六轮真实代码仓库修复测试表明,这一描述并非夸大其词 ——Opus 4.7 真正实现的突破,不是 “从不中断”,而是 “中断后能够自我恢复并继续推进”。

ClaudeClaude Opus 4.7 连续工作能力实测

Claude Opus 4.7 连续工作能力实测:六轮真实仓库修复揭示的能力边界与优化路径

“能够连续数小时连贯工作,攻克难题而不轻易放弃。” 这是 Anthropic 官方对 Claude Opus 4.7 智能体能力的描述。对于见证过无数次 AI 修复失败的开发者而言,这句话曾被视为略带浪漫色彩的营销修辞。但 Devin 团队的六轮真实代码仓库修复测试表明,这一描述并非夸大其词 ——Opus 4.7 真正实现的突破,不是 “从不中断”,而是 “中断后能够自我恢复并继续推进”。

测试结果显示,Opus 4.7 的连续工作效率较上一代有显著提升。其犯错的范式发生了根本性变化:过去模型常出现直接崩溃、主动放弃或陷入死循环的情况,而现在它学会了自校验、主动纠错并稳步推进任务。但这并不意味着它已经完美,六轮测试中暴露的六大类问题,清晰地划定了当前 AI 智能体的能力边界。

一、数据库迁移灾难:“完成” 不等于 “正确完成”

第一轮测试选择了一个中等难度的数据库迁移任务:为user_preferences表添加新列并完成历史数据迁移。Opus 4.7 顺利生成并执行了迁移文件,在自动化测试通过后返回 “任务已完成”。

但深入分析后发现的问题令人警醒:迁移文件虽然正确创建了目标列并复制了数据,但在复制阶段,它悄悄截断了所有超过新列长度的字段值,随后直接删除了旧列。整个过程没有任何报错提示,但用户画像团队依赖的关键长文本数据已被无声抹除。如果发生在生产环境,这将导致成千上万条用户记录的永久性损坏。

失败原因:问题并非出在模型的 SQL 编码能力上,其生成的语法完全正确。核心缺陷在于缺乏数据完整性校验意识 —— 模型没有预先检查源数据与目标 schema 的兼容性,也没有验证复制操作是否无损,仅仅以 “代码能够运行” 作为任务完成的唯一标准。

核心启示:在让 Opus 4.7 自主执行数据库操作时,必须在提示词中明确要求 “添加数据完整性校验步骤”,并强制要求它在删除任何数据前生成备份方案。

二、指令字面化执行:隐式需求被完全忽略

第二轮测试是跨模块代码重构:将通用服务逻辑抽取到独立的 utility 模块。Opus 4.7 完成了代码拆分,但重构后的系统出现了严重的日志丢失问题 —— 所有调用方的日志都丢失了关键的上下文参数。

失败原因:Opus 4.7 比前代模型更严格地遵循指令的字面意思。指令中没有明确提到 “保留原有日志链路”,它就默认这不是任务的一部分。过去开发者习惯使用 “考虑进行 A/B 测试或拆分” 这类灵活表述,旧模型会主动补充最佳实践;但在 Opus 4.7 中,这种模糊表述会导致所有未明确写出的隐式需求被直接丢弃。

社区大量反馈印证了这一点:直接将为早期模型编写的旧提示词迁移到 Opus 4.7,几乎都会产生非预期行为。这种 “指令遵循度提升” 的优化,代价是旧提示词的大规模复用成本急剧上升。

核心启示:编写提示词时必须摒弃模糊表述,将所有关键约束和隐含需求明确列出。对于重构类任务,应专门强调 “保留原有功能、日志和错误处理逻辑”。

三、架构决策困境:同时实现两套冲突方案

第三轮测试要求实现一个 Webhook 处理逻辑,并在队列异步模式和同步处理模式之间选择合适的架构方案。Opus 4.7 的输出令人啼笑皆非:它将两套实现方案全部保留在了代码中,导致两个执行路径共存,错误处理逻辑相互冲突,同一个函数会同时返回 “已执行” 和 “已入队” 两个结果。

失败原因:Opus 4.7 在面对竞争性架构方案时,决策机制存在不稳定性。当需要在多种可能性之间做出确定性选择时,它倾向于保留更多路径以避免 “选错”,而不是做出最优决策。这导致代码量膨胀约 30%,引入了严重的技术债务,最终仍需人工介入进行取舍。

核心启示:对于需要架构决策的任务,应在提示词中明确要求模型 “分析不同方案的优缺点,选择一种最优方案并仅实现该方案”,同时强制要求它删除所有未选中的路径。

四、长上下文盲点:中段关键信息被完全忽略

第四轮测试是基于超长技术文档的代码实现任务。我们将最关键的约束条件放在了上下文序列的 40%-65% 区间(即注意力中段盲区),然后要求模型基于所有文档实现功能。结果模型完美地忽略了这条核心约束,生成的代码完全不符合业务要求。

失败原因:这并非 Opus 4.7 独有的问题,而是整个 Transformer 架构的固有缺陷。大量基准研究表明,模型的信息检索精度从文本开头到中间位置会暴跌 20 个百分点以上。虽然 Anthropic 官方强调其长上下文能力更侧重 “推理” 而非 “大海捞针式检索”,但在真实的代码修复场景中,跨模块业务逻辑高度依赖模型对中段隐藏依赖的定位能力。

核心启示:永远不要将关键约束条件放在上下文的中间位置。应主动重构提示词结构,将所有核心要求放在开头或结尾的锚定区,或通过语义检索先将关键信息提取出来再送入模型。

五、多会话并行陷阱:隐性 token 膨胀导致预算耗尽

第五轮测试开启了多会话并行模式,模拟 Devin 本地版在多项目环境下同时执行多个修复任务的场景。运行到第 3 小时时,部分任务突然卡死,排查后发现后台进程的 token 预算已被过早耗尽。

失败原因:Opus 4.7 的新分词器会使相同内容产生的 token 数量增加 1.0-1.35 倍。在多会话并行时,输入 token 的隐性膨胀效应被放大,但任务调度层并没有按比例调整预算上限。这本质上不是模型能力问题,而是工程治理设计中未被充分考虑的隐性成本。

核心启示:在规划多智能体并行任务时,必须提前预估新分词器带来的 token 增量,将预算天花板至少提高 1.5 倍。同时应建立实时的 token 消耗监控机制,避免任务中途因预算不足而中断。

六、安全合规拦截:高危操作导致会话强制中断

最后一轮测试中,当 Opus 4.7 试图修改与用户认证相关的核心代码时,被内置的自动化安全审查机制直接拦截,整个会话被迫中断。必须经过人工审查并重新授权后,任务才能继续进行。

失败原因:这是 Anthropic 主动设计的安全控制逻辑,旨在防止模型执行高危网络安全操作。在其官方发布的系统卡片中明确提到,已在训练中有意削弱了模型的高级网络攻防能力。对于 Devin 这类自主智能体而言,这种拦截既是保护(避免越权操作),也是损耗 —— 高风险但合法的推理链被切断,导致自主连续工作中断超过 90 分钟。

核心启示:对于涉及认证、权限、数据删除等高风险操作的任务,应提前预留人工审批窗口。在企业级应用中,可通过申请特殊授权或调整安全策略来减少不必要的拦截。

六轮测试总结:能力边界与应对指南

六轮连续修复测试跑完,我们对 “连续工作几小时” 有了更客观的认识。Opus 4.7 确实能够连续运行数小时,且更倾向于 “推演到底” 而非 “半途而废”。但 “断线” 的定义已经发生了变化:它不再是简单的崩溃或超时,而是自校验失败、安全机制拦截、中间信息遗漏等更隐蔽的问题。

以下是六轮测试暴露的核心障碍及对应的工程化应对方案:

表格

轮次核心失败原因具体应对建议
1缺乏数据完整性校验,导致数据无声截断对所有数据库操作强制添加 “数据无损验证” 要求,执行删除操作前必须生成备份
2指令字面化执行,隐式需求丢失摒弃模糊表述,明确列出所有关键约束,如 “保留原有日志链路、错误处理和 API 契约”
3架构决策时保留冲突方案要求模型先分析方案优缺点,选择唯一最优方案并删除所有未选中路径
4关键信息落入注意力中段盲点重构提示词结构,将核心约束放在开头或结尾,或通过检索提前提取关键信息
5多会话下隐性 token 膨胀导致预算耗尽按 1.5 倍系数预估 token 消耗,扩大预算天花板,建立实时用量监控
6安全审查拦截导致任务中断对高风险任务预留人工审批窗口,提前申请必要的特殊授权

结语

Opus 4.7 的进步是实实在在的,它让 AI 智能体连续工作数小时从想象变成了现实。但我们必须清醒地认识到,模型的能力仍有明确的边界。信任的边界永远不能由模型的声誉来划定,而必须由企业自己的测试框架和工程护栏来保障。

真正的工程意义不在于追求 “模型永远不断线”,而在于清楚地知道它可能在什么地方断线,以及断线之后如何快速恢复。通过合理的提示词设计、完善的监控机制和必要的人工介入,我们能够充分发挥 Opus 4.7 的能力,同时有效规避潜在风险。

为了帮助广大企业和开发者更便捷、更经济地体验包括 Claude Opus 4.7 在内的全球领先 AI 智能体技术,UseAIAPI 平台提供一站式大模型接入解决方案,全面支持 Gemini、Claude、ChatGPT、DeepSeek 等最新主流 AI 大模型。平台无需复杂的配置和漫长的申请流程,用户注册后即可立即使用所有模型服务。在成本方面,平台推出了长期稳定的优惠政策,所有模型服务最低可享官方价格的 5 折优惠,大幅降低了企业在代码开发、项目重构、智能运维等场景下的 AI 使用成本。同时,平台配备专业的技术服务团队,提供 7×24 小时技术支持和企业级定制化服务,能够根据不同行业的业务需求,打造专属的 AI 智能体工作流,助力企业实现数字化转型。