从刷榜到实战：1500 美元实验撕开 AI 安全推理能力真实差距

真实环境测试揭示大模型攻防能力代际分化

安全研究员卡斯拉・拉赫杰迪（Kasra Rahjerdi）近期完成了一项极具现实意义的实验：自掏腰包 1500 多美元，邀请十几款主流大模型对一个故意植入漏洞的书籍评论应用 APK（BookNook）进行渗透测试。测试结果打破了很多人对大模型能力的固有认知：GPT-5.5 以 70% 的成功率（7/10）位居榜首；DeepSeek V4 Pro 凭借极致的成本优势实现了 30% 的突破（3/10）；而 Claude 和 Gemini 则被自身的安全护栏困在起跑线附近，甚至来不及找到真正的漏洞入口。

从那个刺眼的 “70%” 出发，有两个问题比分数本身更值得行业深思：第一，GPT-5.5 的这 70% 成功率到底意味着什么？第二，“真实安全推理能力” 和 “基准测试刷高分” 之间，究竟隔着怎样的鸿沟？

GPT-5.5 的胜利：不是刷题，是渗透直觉

本次测试的核心场景并不复杂：BookNook 应用的后端依赖 Google Firebase 服务，但开发者不慎将 Firebase 凭据暴露在了 APK 文件中。模型需要完成完整的渗透流程：解包 APK→识别敏感凭据→绕过被加固的 API 接口→直连底层数据库，提取用户私密书评中隐藏的标记信息。

这看似是一条清晰的逻辑链，但 GPT-5.5 的取胜之道并非依靠按部就班的逐步推导。卡斯拉观察到，几乎每一次成功轮次中，GPT-5.5 在解压 APK 后都会瞬间将注意力锁定在 Firebase 相关文件上，完全不会被 React Native 前端界面代码或看似正常的 API 调用路径带偏。它仿佛拥有一种 “一眼看穿弱点” 的能力。

这种能力被称为 “路径直觉”—— 不是将任务拆分成细碎步骤逐一验算，而是在海量代码和文件构成的信息过载环境中，以极低的决策成本识别出最有价值的攻击面。本质上，GPT-5.5 在安全场景的表现已经不再是 “好学生刷题” 式的机械演绎，而更接近老练渗透测试者那种 “扫一眼代码就心里有数” 的专业判断。

这种直觉在动态安全任务中远比单纯的 “知识面广” 重要得多。GPT-5.5 在 Terminal-Bench 2.0（复杂命令行工作流与终端 Agent 任务）测试中拿下 82.7% 的高分，大幅领先 Claude Opus 4.7 的 69.4%—— 这不仅是因为它 “记住了更多漏洞”，更是因为它真正学会了 “下一步该往哪看”。

方向感缺失：其他模型的核心短板

DeepSeek V4 Pro 的表现提供了一个有趣的对照。它最终取得了 3/10 的成绩（成功率约 30%，相当于 GPT-5.5 的四成），但也暴露出一个隐蔽却致命的问题：推理路径依赖。在 10 次测试中，有 5 次它根本没有注意到 Firebase 凭据的存在，一直在 API 层徒劳打转；另外 5 次虽然摸到了 Firebase 的边，却有 2 次误用 Firebase Auth 去走 API 的 “正门”，而不是直接操作底层数据库 —— 这本质上是 “方向判定” 的全面崩塌。

这两种失败模式 ——“没发现关键目标” 和 “发现了但用错方法”—— 指向了同一个核心问题：很多模型在信息过载的复杂环境中，无法抓住真正的关键目标。而这恰恰是基准测试无法衡量的能力：安全推理不是在单一维度上刷高分，而是在迷雾中找到唯一需要命中的靶心。

Claude 的遗憾则更加令人惋惜。Claude Opus 4.8 多次沿着正确的攻击路径推进，甚至在对话后期已经逼近最终结果，却在半路上被自身的安全护栏突然拦截。更值得注意的是，这种拦截并非在任务开始时就触发，而是随着攻击路径一步步接近正确答案才启动 —— 也就是说，Claude 不是 “不够聪明”，它聪明到能拿着正确答案走到门口，却被自家的安全系统拦在了门外。

事实上，Claude Code 用户已经连续几个月抱怨安全护栏的 “误伤” 问题。这不是孤立事件，而是系统性现象：当 AI 因为自身的安全机制，连一次善意的白帽渗透测试都无法完成时，这个安全系统兜住的到底是风险，还是自身的能力边界？

Gemini 的表现则更为极端。Gemini 3.1 Pro Preview 和 3.5 Flash 几乎在每次会话开局就直接拒绝执行任务，中位 token 消耗仅约 9000，远低于其他模型动辄 10 万 + 的水平。它不是输在推理能力上，而是根本没有登上战场。

从认漏洞到规划攻击链：能力发生质变

卡斯拉的实验只是真实安全环境的一个微观切片，但 GPT-5.5 展现出的多步规划能力，已经在更大尺度上得到了交叉验证。

英国 AI 安全研究所（AISI）的测试显示，在 316 道进攻性安全任务中，GPT-5.5 成功解出了 292 道（92.4%）—— 现有评估体系本身已经开始 “饱和”，因为剩下的题目数量已经不足以画出有统计意义的能力曲线。

在 AISI 专门设计的 TLO（The Last Ones）靶场中，模拟了需要 32 步才能完成的企业内网数据提取任务。GPT-5.5 在 10 次测试中成功 3 次，Mythos Preview 成功 2 次，而此前所有早期模型的成功率均为零。就连此前所有模型全军覆没的 Cooling Tower 工业控制系统靶场，也首次被 Mythos 撕开了缺口。

网络安全公司 Zscaler 的技术分析指出，Mythos 和 GPT-5.5 的能力跃迁，关键不在于 “单步推理更准确”，而在于它们能够同时探索多条攻击路径、保留分支可能性、在中间状态维持攻击者凭据和会话数据，并最终收敛到单一高价值目标。

什么是真正的 “安全推理多步规划能力”？它不是答对一道孤立的题目，而是在无标记、嘈杂的真实环境中，自主决定第一步做什么、第二步验证什么、第三步执行什么，并对前面所有步骤的结果负责。GPT-5.5 的 70% 成功率，正是建立在这套完整的多步规划框架之上；其他模型之所以落后，要么是卡在了方向判断环节，要么是被安全护栏提前终止。

这也正是 GPT-5.5-Cyber 被业内评定为 “对多步安全工作流最有用” 的核心原因 —— 它不仅能看见单个漏洞，更能看见整条完整的攻击路径。

AI 攻击能力加速迭代：防守方面临新挑战

AISI 追踪到的能力翻倍周期，给出了令人不安的信号：

2025 年 11 月的早期估算显示，前沿模型独立完成网络安全任务的 “可持续时长” 翻倍周期约为 8 个月；
到 2026 年 2 月，这一周期已经缩短至 4.7 个月；
纳入 Mythos 和 GPT-5.5 的最新数据后，翻倍周期还在进一步加速。

METR 机构的跨领域验证也得出了类似结论：从软件工程视角看，能力翻倍周期约为 4.2 个月，如果纳入 Mythos 的数据则进一步压缩至约 4 个月。

Lyptus Research 的观察则更加棘手：GPT-5.5 在 CyberGym 测试平台上，当 token 预算从 200 万提升至 5000 万时，正确率从 54.4% 跃升至 86.4%。翻译成通俗的话就是：“只要给够推理预算，它就能完成更难的任务。”

这意味着，攻防双方的博弈维度已经发生了根本性变化。攻击者不再需要精心手工编写攻击脚本，只需要投入足够的推理成本就能获得相应的攻击能力。能力曲线的斜率，正在静悄悄地决定着攻防两端谁掌握主动权。

结语：从基准测试走向真实战场

70% 的成功率在琳琅满目的基准测试排行榜中或许并不显眼，但卡斯拉的实验最珍贵的地方，在于它撤掉了所有 “刷题滤镜”，把模型扔进了一个真实的、充满不确定性的安全挑战中。

当模型能够在未知 APK 的几百个参数中一秒锁定 Firebase 凭据，完全不被 API 和前端界面干扰，还能自主组织出合理、可执行的完整攻击路径时，它就不再是一个只会刷高分的 “学霸”，而是一名具备实战能力的一线渗透者。

正是这一步，让 “AI 安全推理” 第一次从基准测试的消毒台上，踩进了真实战场的泥地里。对于整个行业而言，这既是前所未有的挑战，也为构建更有效的 AI 防御体系指明了方向。

在 AI 攻防技术加速迭代的今天，企业在提升自身安全防御能力的同时，选择稳定可靠、性价比高的 AI 服务接入渠道同样至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台，提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务，同时支持企业级定制化解决方案，无需复杂的技术配置即可快速部署上线。为切实帮助企业降低 AI 应用门槛和运营成本，UseAIAPI 推出重磅优惠活动，所有服务最低可享官方价格 5 折，大幅减轻企业高强度内容生成、大规模安全扫描和 AI 应用开发的算力负担，让企业能够以更低的成本，充分利用 AI 技术构建更坚固的安全防线。