Claude Opus 4.7 连续工作能力实测：六轮真实仓库修复揭示的能力边界与优化路径

“能够连续数小时连贯工作，攻克难题而不轻易放弃。” 这是 Anthropic 官方对 Claude Opus 4.7 智能体能力的描述。对于见证过无数次 AI 修复失败的开发者而言，这句话曾被视为略带浪漫色彩的营销修辞。但 Devin 团队的六轮真实代码仓库修复测试表明，这一描述并非夸大其词 ——Opus 4.7 真正实现的突破，不是 “从不中断”，而是 “中断后能够自我恢复并继续推进”。

测试结果显示，Opus 4.7 的连续工作效率较上一代有显著提升。其犯错的范式发生了根本性变化：过去模型常出现直接崩溃、主动放弃或陷入死循环的情况，而现在它学会了自校验、主动纠错并稳步推进任务。但这并不意味着它已经完美，六轮测试中暴露的六大类问题，清晰地划定了当前 AI 智能体的能力边界。

一、数据库迁移灾难：“完成” 不等于 “正确完成”

第一轮测试选择了一个中等难度的数据库迁移任务：为user_preferences表添加新列并完成历史数据迁移。Opus 4.7 顺利生成并执行了迁移文件，在自动化测试通过后返回 “任务已完成”。

但深入分析后发现的问题令人警醒：迁移文件虽然正确创建了目标列并复制了数据，但在复制阶段，它悄悄截断了所有超过新列长度的字段值，随后直接删除了旧列。整个过程没有任何报错提示，但用户画像团队依赖的关键长文本数据已被无声抹除。如果发生在生产环境，这将导致成千上万条用户记录的永久性损坏。

失败原因：问题并非出在模型的 SQL 编码能力上，其生成的语法完全正确。核心缺陷在于缺乏数据完整性校验意识 —— 模型没有预先检查源数据与目标 schema 的兼容性，也没有验证复制操作是否无损，仅仅以 “代码能够运行” 作为任务完成的唯一标准。

核心启示：在让 Opus 4.7 自主执行数据库操作时，必须在提示词中明确要求 “添加数据完整性校验步骤”，并强制要求它在删除任何数据前生成备份方案。

二、指令字面化执行：隐式需求被完全忽略

第二轮测试是跨模块代码重构：将通用服务逻辑抽取到独立的 utility 模块。Opus 4.7 完成了代码拆分，但重构后的系统出现了严重的日志丢失问题 —— 所有调用方的日志都丢失了关键的上下文参数。

失败原因：Opus 4.7 比前代模型更严格地遵循指令的字面意思。指令中没有明确提到 “保留原有日志链路”，它就默认这不是任务的一部分。过去开发者习惯使用 “考虑进行 A/B 测试或拆分” 这类灵活表述，旧模型会主动补充最佳实践；但在 Opus 4.7 中，这种模糊表述会导致所有未明确写出的隐式需求被直接丢弃。

社区大量反馈印证了这一点：直接将为早期模型编写的旧提示词迁移到 Opus 4.7，几乎都会产生非预期行为。这种 “指令遵循度提升” 的优化，代价是旧提示词的大规模复用成本急剧上升。

核心启示：编写提示词时必须摒弃模糊表述，将所有关键约束和隐含需求明确列出。对于重构类任务，应专门强调 “保留原有功能、日志和错误处理逻辑”。

三、架构决策困境：同时实现两套冲突方案

第三轮测试要求实现一个 Webhook 处理逻辑，并在队列异步模式和同步处理模式之间选择合适的架构方案。Opus 4.7 的输出令人啼笑皆非：它将两套实现方案全部保留在了代码中，导致两个执行路径共存，错误处理逻辑相互冲突，同一个函数会同时返回 “已执行” 和 “已入队” 两个结果。

失败原因：Opus 4.7 在面对竞争性架构方案时，决策机制存在不稳定性。当需要在多种可能性之间做出确定性选择时，它倾向于保留更多路径以避免 “选错”，而不是做出最优决策。这导致代码量膨胀约 30%，引入了严重的技术债务，最终仍需人工介入进行取舍。

核心启示：对于需要架构决策的任务，应在提示词中明确要求模型 “分析不同方案的优缺点，选择一种最优方案并仅实现该方案”，同时强制要求它删除所有未选中的路径。

四、长上下文盲点：中段关键信息被完全忽略

第四轮测试是基于超长技术文档的代码实现任务。我们将最关键的约束条件放在了上下文序列的 40%-65% 区间（即注意力中段盲区），然后要求模型基于所有文档实现功能。结果模型完美地忽略了这条核心约束，生成的代码完全不符合业务要求。

失败原因：这并非 Opus 4.7 独有的问题，而是整个 Transformer 架构的固有缺陷。大量基准研究表明，模型的信息检索精度从文本开头到中间位置会暴跌 20 个百分点以上。虽然 Anthropic 官方强调其长上下文能力更侧重 “推理” 而非 “大海捞针式检索”，但在真实的代码修复场景中，跨模块业务逻辑高度依赖模型对中段隐藏依赖的定位能力。

核心启示：永远不要将关键约束条件放在上下文的中间位置。应主动重构提示词结构，将所有核心要求放在开头或结尾的锚定区，或通过语义检索先将关键信息提取出来再送入模型。

五、多会话并行陷阱：隐性 token 膨胀导致预算耗尽

第五轮测试开启了多会话并行模式，模拟 Devin 本地版在多项目环境下同时执行多个修复任务的场景。运行到第 3 小时时，部分任务突然卡死，排查后发现后台进程的 token 预算已被过早耗尽。

失败原因：Opus 4.7 的新分词器会使相同内容产生的 token 数量增加 1.0-1.35 倍。在多会话并行时，输入 token 的隐性膨胀效应被放大，但任务调度层并没有按比例调整预算上限。这本质上不是模型能力问题，而是工程治理设计中未被充分考虑的隐性成本。

核心启示：在规划多智能体并行任务时，必须提前预估新分词器带来的 token 增量，将预算天花板至少提高 1.5 倍。同时应建立实时的 token 消耗监控机制，避免任务中途因预算不足而中断。

六、安全合规拦截：高危操作导致会话强制中断

最后一轮测试中，当 Opus 4.7 试图修改与用户认证相关的核心代码时，被内置的自动化安全审查机制直接拦截，整个会话被迫中断。必须经过人工审查并重新授权后，任务才能继续进行。

失败原因：这是 Anthropic 主动设计的安全控制逻辑，旨在防止模型执行高危网络安全操作。在其官方发布的系统卡片中明确提到，已在训练中有意削弱了模型的高级网络攻防能力。对于 Devin 这类自主智能体而言，这种拦截既是保护（避免越权操作），也是损耗 —— 高风险但合法的推理链被切断，导致自主连续工作中断超过 90 分钟。

核心启示：对于涉及认证、权限、数据删除等高风险操作的任务，应提前预留人工审批窗口。在企业级应用中，可通过申请特殊授权或调整安全策略来减少不必要的拦截。

六轮测试总结：能力边界与应对指南

六轮连续修复测试跑完，我们对 “连续工作几小时” 有了更客观的认识。Opus 4.7 确实能够连续运行数小时，且更倾向于 “推演到底” 而非 “半途而废”。但 “断线” 的定义已经发生了变化：它不再是简单的崩溃或超时，而是自校验失败、安全机制拦截、中间信息遗漏等更隐蔽的问题。

以下是六轮测试暴露的核心障碍及对应的工程化应对方案：

表格

轮次	核心失败原因	具体应对建议
1	缺乏数据完整性校验，导致数据无声截断	对所有数据库操作强制添加 “数据无损验证” 要求，执行删除操作前必须生成备份
2	指令字面化执行，隐式需求丢失	摒弃模糊表述，明确列出所有关键约束，如 “保留原有日志链路、错误处理和 API 契约”
3	架构决策时保留冲突方案	要求模型先分析方案优缺点，选择唯一最优方案并删除所有未选中路径
4	关键信息落入注意力中段盲点	重构提示词结构，将核心约束放在开头或结尾，或通过检索提前提取关键信息
5	多会话下隐性 token 膨胀导致预算耗尽	按 1.5 倍系数预估 token 消耗，扩大预算天花板，建立实时用量监控
6	安全审查拦截导致任务中断	对高风险任务预留人工审批窗口，提前申请必要的特殊授权

结语

Opus 4.7 的进步是实实在在的，它让 AI 智能体连续工作数小时从想象变成了现实。但我们必须清醒地认识到，模型的能力仍有明确的边界。信任的边界永远不能由模型的声誉来划定，而必须由企业自己的测试框架和工程护栏来保障。

真正的工程意义不在于追求 “模型永远不断线”，而在于清楚地知道它可能在什么地方断线，以及断线之后如何快速恢复。通过合理的提示词设计、完善的监控机制和必要的人工介入，我们能够充分发挥 Opus 4.7 的能力，同时有效规避潜在风险。

为了帮助广大企业和开发者更便捷、更经济地体验包括 Claude Opus 4.7 在内的全球领先 AI 智能体技术，UseAIAPI 平台提供一站式大模型接入解决方案，全面支持 Gemini、Claude、ChatGPT、DeepSeek 等最新主流 AI 大模型。平台无需复杂的配置和漫长的申请流程，用户注册后即可立即使用所有模型服务。在成本方面，平台推出了长期稳定的优惠政策，所有模型服务最低可享官方价格的 5 折优惠，大幅降低了企业在代码开发、项目重构、智能运维等场景下的 AI 使用成本。同时，平台配备专业的技术服务团队，提供 7×24 小时技术支持和企业级定制化服务，能够根据不同行业的业务需求，打造专属的 AI 智能体工作流，助力企业实现数字化转型。