1500 美元攻防实验揭示大模型能力代际差

多步推理稳定性成 AI 竞争新分水岭

同样的 Firebase 凭据、同样的测试 APK、同样的目标标记，10 款主流大模型走进同一间 "考场"，限时 2 小时、单轮预算 10 美元。这场由安全研究员自掏腰包完成的 1500 美元攻防实验，不仅测出了模型间的技术差距，更量化了行业热议两年却始终难以精准衡量的核心指标 ——多步推理稳定性。这一次，它被放在一条完整的真实攻击链上接受了检验。

实验结果清晰且尖锐：GPT-5.5 成功完成 7 次渗透；DeepSeek V4 Pro 成功 3 次；Claude Sonnet 4.6 与 Opus 4.8 各成功 2 次；其余所有模型均未能完成任务。在完全相同的漏洞、测试条件和时间预算下，模型间的能力断层已达到代际差距水平。

但冰冷数字背后更值得深挖的问题是：同一道题，差距为何会如此悬殊？答案不在 "是否认识这个漏洞"，而在于今天的大模型早已不需要只回答 "这是什么漏洞" 这类单点问题。真正将它们拉开差距的，是多步规划过程中的稳定性：能否始终保持方向、不被噪声带偏、不被自家安全护栏中途腰斩。

失败图谱：比成功榜更能说明问题的真相

Gemini："宁可错杀" 的极端风控策略

Gemini 3.1 Pro Preview 几乎在每轮测试开局就被自家安全机制直接终止，中位 token 消耗仅约 9000，而其他完成完整推理的模型往往能达到 10 万甚至 40 万以上。这不是推理能力不足，而是根本没有被允许上场 —— 它采用了近乎 "宁可错杀一千，不可放过一个" 的极端风控策略。

Claude Opus 4.8：找到答案，却被 "自己人" 拦在终点前

更令人惋惜的是 Claude Opus 4.8 的表现。它并非找不到攻击路径，而是多次沿着正确方向推进、已经逼近最终答案时，在会话中后期被安全护栏突然触发拦截，导致所有努力前功尽弃。

这暴露了当前安全护栏设计的致命缺陷：拦截并非发生在任务启动时的敏感内容检测阶段，而是在推理链逐步逼近正确答案的过程中，基于上下文风险评估被触发。Claude 成功推导出了完整的攻击路径，却被自家安全系统误判为攻击者，最终功亏一篑。

DeepSeek V4 Pro：复杂环境下的方向感缺失

DeepSeek 暴露的是另一类稳定性问题：在 10 次测试中，有 5 次完全忽略了 Firebase 凭据的存在，一直在 API 层徒劳空转；另外 5 次虽然摸到了 Firebase 的边，却有 2 次错误地将精力放在 "用 Firebase Auth 走 API 正门" 上，而非直接操作底层数据库。

这本质上是复杂信息环境下的关键点抓取偏差：它可能 "知道 Firebase 是什么"，但当面前摆着上百个文件与接口时，多步规划的第一步方向就出现了动摇。而在链式推理中，第一步的微小偏差，会被不断放大为整条路径的彻底失败。

GPT-5.5 的 70%：赢在路径选择的高度确定性

GPT-5.5 的 70% 成功率并非来自反复试错的运气，而是对未知目标的连续高精度命中。实验报告中最值得关注的结论是：GPT-5.5 在解压 APK 后几乎总是迅速将注意力锁定在 Firebase 凭据上，不会在 API 界面层等无关路径上浪费精力。从 "识别 APK" 到 "定位核心弱点" 的过程几乎没有犹豫。

这正是多步推理稳定性的终极体现：推理链的每一步都具有高度确定性，方向偏差被控制在极低水平。它不是靠盲目试错来逼近答案，而是在海量噪声中始终保持对核心目标的聚焦。

为什么多步推理稳定性会成为新分水岭？

学术界的研究也印证了这一趋势。在一项涵盖 14 个模型、55 个数据集的诊断研究中，模型完成 5 步程序的平均首答准确率约为 61%，但当步骤拉长到 95 步时，准确率暴跌至约 20%。这表明，大模型的推理能力会随着推理链长度的增加出现显著的长尾衰减。

表面上看，"70% vs 30%" 只差 40 个百分点；但在真实攻击链中，这 40 个百分点对应的就是 "Firebase 能否在第二、第三步仍被锁定"。模型完全可能第一步表现惊艳，却在第五步因注意力失焦而全面崩盘。而 "多步推理稳定性" 衡量的，正是在这场推理长跑中不掉链子的能力。

三大因素决定多步推理稳定性

1. 护栏设计是第一把刀

Gemini 的 "起点式拒绝" 与 Claude 的 "中途式刹车" 本质上是同一问题的两种表现：前者将风控标准设置得过于严苛，后者的拦截逻辑又过于粗糙。强大的推理能力反而更容易被误判为 "可疑操作"。真正成熟的安全方案不应以简单的拒绝代替精准的过滤 —— 拒绝只是拉闸断电，而非真正的安全防护。

2. 成本上限是第二把刀

10 美元的单轮预算是对现实世界的残酷模拟。DeepSeek 单次成功的成本仅约 0.62 美元，远低于 GPT-5.5 的约 9.46 美元，成本优势十分显著。但 30% 的成功率也暴露了问题：在低预算约束下，如果推理稳定性无法提升，"便宜" 只能支撑批量浅层扫描任务，难以胜任需要连续正确决策的深度链路工作。

3. 信息过滤能力是最关键的标尺

真实环境并非漏洞的理想化描述，而是充满了噪声：APK 中的冗余文件、React Native 界面代码、无数无意义的 API 端点。模型需要在海量噪声中精准筛选出唯一的有效信号。GPT-5.5 的 "瞬时锁定 Firebase" 能力，本质上是学会了在长链推理中始终将焦点保持在核心目标上；而 DeepSeek 的失误则证明，一旦第一步方向出现偏差，后续所有步骤都会被放大为整条路径的失败。

结语：单步收敛之后，护城河在长链

纵观整个大模型能力版图，一个根本性的结论已经清晰：在单步任务上，主流模型的能力差距已逐渐缩小；真正的竞争护城河，正在向多步、长链场景转移。

当推理链从 5 步拉长到 95 步，所有模型的准确率都会出现不同程度的下降，但 GPT-5.5 凭借更高的能力上限，将 "不塌的阈值" 抬到了新的高度，而其他模型则在更短的推理长度上就已出现明显衰减。

对企业而言，选择 AI 模型不应只关注月度基准测试榜单的排名，更应考察模型在真实业务场景中的表现 —— 当面对几十次工具调用、上百个无关文件和大量环境噪声时，它是否还能始终保持方向感，稳定完成任务。这正是 "多步推理稳定性" 与简单 "推理正确率" 的本质区别：它衡量的不是 "某道题能不能答对"，而是在一场漫长的推理长跑中，能坚持多久不掉链子。

正如这场耗资 1500 美元的实验所揭示的：AI 安全的核心矛盾正在从 "模型会不会犯错" 转向 "模型能不能稳定完成多步任务"。行业亟需建立新的评估体系和安全架构，以适应这一变化。下一场 AI 技术的硬仗，不在单步推断的准确率，而在长链推理的稳定性。

在 AI 技术加速迭代、企业应用日益深入的今天，选择稳定可靠、性价比高的 AI 服务接入渠道，成为企业数字化转型的关键。UseAIAPI作为专业的全球 AI 大模型接入平台，提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务，同时支持企业级定制化解决方案，无需复杂的技术配置即可快速部署上线。为切实帮助企业降低 AI 应用门槛和运营成本，UseAIAPI 推出重磅优惠活动，所有服务最低可享官方价格 5 折，大幅减轻企业高强度内容生成、大规模业务流程自动化和 AI 应用开发的算力负担，让企业能够以更低的成本，充分释放 AI 技术的创新潜力与商业价值。