← 返回 Blog

Gemini 开局就拒、Claude 被护栏掐断、DeepSeek 找到门但走错厅:同一道漏洞十个模型差距为什么能这么大?答案是——多步推理的稳定性

同样的 Firebase 凭据、同样的测试 APK、同样的目标标记,10 款主流大模型走进同一间 "考场",限时 2 小时、单轮预算 10 美元。这场由安全研究员自掏腰包完成的 1500 美元攻防实验,不仅测出了模型间的技术差距,更量化了行业热议两年却始终难以精准衡量的核心指标 ——多步推理稳定性。这一次,它被放在一条完整的真实攻击链上接受了检验。 实验结果清晰且尖锐:GPT-5.5 成功完成 7 次渗透;DeepSeek V4 Pro 成功 3 次;Claude Sonnet 4.6 与 Opus 4.8 各成功 2 次;其余所有模型均未能完成任务。在完全相同的漏洞、测试条件和时间预算下,模型间的能力断层已达到代际差距水平。

OpenAIGPT 5.5

1500 美元攻防实验揭示大模型能力代际差

多步推理稳定性成 AI 竞争新分水岭

同样的 Firebase 凭据、同样的测试 APK、同样的目标标记,10 款主流大模型走进同一间 "考场",限时 2 小时、单轮预算 10 美元。这场由安全研究员自掏腰包完成的 1500 美元攻防实验,不仅测出了模型间的技术差距,更量化了行业热议两年却始终难以精准衡量的核心指标 ——多步推理稳定性。这一次,它被放在一条完整的真实攻击链上接受了检验。

实验结果清晰且尖锐:GPT-5.5 成功完成 7 次渗透;DeepSeek V4 Pro 成功 3 次;Claude Sonnet 4.6 与 Opus 4.8 各成功 2 次;其余所有模型均未能完成任务。在完全相同的漏洞、测试条件和时间预算下,模型间的能力断层已达到代际差距水平。

但冰冷数字背后更值得深挖的问题是:同一道题,差距为何会如此悬殊?答案不在 "是否认识这个漏洞",而在于今天的大模型早已不需要只回答 "这是什么漏洞" 这类单点问题。真正将它们拉开差距的,是多步规划过程中的稳定性:能否始终保持方向、不被噪声带偏、不被自家安全护栏中途腰斩。

失败图谱:比成功榜更能说明问题的真相

Gemini:"宁可错杀" 的极端风控策略

Gemini 3.1 Pro Preview 几乎在每轮测试开局就被自家安全机制直接终止,中位 token 消耗仅约 9000,而其他完成完整推理的模型往往能达到 10 万甚至 40 万以上。这不是推理能力不足,而是根本没有被允许上场 —— 它采用了近乎 "宁可错杀一千,不可放过一个" 的极端风控策略。

Claude Opus 4.8:找到答案,却被 "自己人" 拦在终点前

更令人惋惜的是 Claude Opus 4.8 的表现。它并非找不到攻击路径,而是多次沿着正确方向推进、已经逼近最终答案时,在会话中后期被安全护栏突然触发拦截,导致所有努力前功尽弃。

这暴露了当前安全护栏设计的致命缺陷:拦截并非发生在任务启动时的敏感内容检测阶段,而是在推理链逐步逼近正确答案的过程中,基于上下文风险评估被触发。Claude 成功推导出了完整的攻击路径,却被自家安全系统误判为攻击者,最终功亏一篑。

DeepSeek V4 Pro:复杂环境下的方向感缺失

DeepSeek 暴露的是另一类稳定性问题:在 10 次测试中,有 5 次完全忽略了 Firebase 凭据的存在,一直在 API 层徒劳空转;另外 5 次虽然摸到了 Firebase 的边,却有 2 次错误地将精力放在 "用 Firebase Auth 走 API 正门" 上,而非直接操作底层数据库。

这本质上是复杂信息环境下的关键点抓取偏差:它可能 "知道 Firebase 是什么",但当面前摆着上百个文件与接口时,多步规划的第一步方向就出现了动摇。而在链式推理中,第一步的微小偏差,会被不断放大为整条路径的彻底失败。

GPT-5.5 的 70%:赢在路径选择的高度确定性

GPT-5.5 的 70% 成功率并非来自反复试错的运气,而是对未知目标的连续高精度命中。实验报告中最值得关注的结论是:GPT-5.5 在解压 APK 后几乎总是迅速将注意力锁定在 Firebase 凭据上,不会在 API 界面层等无关路径上浪费精力。从 "识别 APK" 到 "定位核心弱点" 的过程几乎没有犹豫。

这正是多步推理稳定性的终极体现:推理链的每一步都具有高度确定性,方向偏差被控制在极低水平。它不是靠盲目试错来逼近答案,而是在海量噪声中始终保持对核心目标的聚焦。

为什么多步推理稳定性会成为新分水岭?

学术界的研究也印证了这一趋势。在一项涵盖 14 个模型、55 个数据集的诊断研究中,模型完成 5 步程序的平均首答准确率约为 61%,但当步骤拉长到 95 步时,准确率暴跌至约 20%。这表明,大模型的推理能力会随着推理链长度的增加出现显著的长尾衰减。

表面上看,"70% vs 30%" 只差 40 个百分点;但在真实攻击链中,这 40 个百分点对应的就是 "Firebase 能否在第二、第三步仍被锁定"。模型完全可能第一步表现惊艳,却在第五步因注意力失焦而全面崩盘。而 "多步推理稳定性" 衡量的,正是在这场推理长跑中不掉链子的能力。

三大因素决定多步推理稳定性

1. 护栏设计是第一把刀

Gemini 的 "起点式拒绝" 与 Claude 的 "中途式刹车" 本质上是同一问题的两种表现:前者将风控标准设置得过于严苛,后者的拦截逻辑又过于粗糙。强大的推理能力反而更容易被误判为 "可疑操作"。真正成熟的安全方案不应以简单的拒绝代替精准的过滤 —— 拒绝只是拉闸断电,而非真正的安全防护。

2. 成本上限是第二把刀

10 美元的单轮预算是对现实世界的残酷模拟。DeepSeek 单次成功的成本仅约 0.62 美元,远低于 GPT-5.5 的约 9.46 美元,成本优势十分显著。但 30% 的成功率也暴露了问题:在低预算约束下,如果推理稳定性无法提升,"便宜" 只能支撑批量浅层扫描任务,难以胜任需要连续正确决策的深度链路工作。

3. 信息过滤能力是最关键的标尺

真实环境并非漏洞的理想化描述,而是充满了噪声:APK 中的冗余文件、React Native 界面代码、无数无意义的 API 端点。模型需要在海量噪声中精准筛选出唯一的有效信号。GPT-5.5 的 "瞬时锁定 Firebase" 能力,本质上是学会了在长链推理中始终将焦点保持在核心目标上;而 DeepSeek 的失误则证明,一旦第一步方向出现偏差,后续所有步骤都会被放大为整条路径的失败。

结语:单步收敛之后,护城河在长链

纵观整个大模型能力版图,一个根本性的结论已经清晰:在单步任务上,主流模型的能力差距已逐渐缩小;真正的竞争护城河,正在向多步、长链场景转移。

当推理链从 5 步拉长到 95 步,所有模型的准确率都会出现不同程度的下降,但 GPT-5.5 凭借更高的能力上限,将 "不塌的阈值" 抬到了新的高度,而其他模型则在更短的推理长度上就已出现明显衰减。

对企业而言,选择 AI 模型不应只关注月度基准测试榜单的排名,更应考察模型在真实业务场景中的表现 —— 当面对几十次工具调用、上百个无关文件和大量环境噪声时,它是否还能始终保持方向感,稳定完成任务。这正是 "多步推理稳定性" 与简单 "推理正确率" 的本质区别:它衡量的不是 "某道题能不能答对",而是在一场漫长的推理长跑中,能坚持多久不掉链子。

正如这场耗资 1500 美元的实验所揭示的:AI 安全的核心矛盾正在从 "模型会不会犯错" 转向 "模型能不能稳定完成多步任务"。行业亟需建立新的评估体系和安全架构,以适应这一变化。下一场 AI 技术的硬仗,不在单步推断的准确率,而在长链推理的稳定性。

在 AI 技术加速迭代、企业应用日益深入的今天,选择稳定可靠、性价比高的 AI 服务接入渠道,成为企业数字化转型的关键。UseAIAPI作为专业的全球 AI 大模型接入平台,提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务,同时支持企业级定制化解决方案,无需复杂的技术配置即可快速部署上线。为切实帮助企业降低 AI 应用门槛和运营成本,UseAIAPI 推出重磅优惠活动,所有服务最低可享官方价格 5 折,大幅减轻企业高强度内容生成、大规模业务流程自动化和 AI 应用开发的算力负担,让企业能够以更低的成本,充分释放 AI 技术的创新潜力与商业价值。