从刷榜到实战:1500 美元实验撕开 AI 安全推理能力真实差距
真实环境测试揭示大模型攻防能力代际分化
安全研究员卡斯拉・拉赫杰迪(Kasra Rahjerdi)近期完成了一项极具现实意义的实验:自掏腰包 1500 多美元,邀请十几款主流大模型对一个故意植入漏洞的书籍评论应用 APK(BookNook)进行渗透测试。测试结果打破了很多人对大模型能力的固有认知:GPT-5.5 以 70% 的成功率(7/10)位居榜首;DeepSeek V4 Pro 凭借极致的成本优势实现了 30% 的突破(3/10);而 Claude 和 Gemini 则被自身的安全护栏困在起跑线附近,甚至来不及找到真正的漏洞入口。
从那个刺眼的 “70%” 出发,有两个问题比分数本身更值得行业深思:第一,GPT-5.5 的这 70% 成功率到底意味着什么?第二,“真实安全推理能力” 和 “基准测试刷高分” 之间,究竟隔着怎样的鸿沟?
GPT-5.5 的胜利:不是刷题,是渗透直觉
本次测试的核心场景并不复杂:BookNook 应用的后端依赖 Google Firebase 服务,但开发者不慎将 Firebase 凭据暴露在了 APK 文件中。模型需要完成完整的渗透流程:解包 APK→识别敏感凭据→绕过被加固的 API 接口→直连底层数据库,提取用户私密书评中隐藏的标记信息。
这看似是一条清晰的逻辑链,但 GPT-5.5 的取胜之道并非依靠按部就班的逐步推导。卡斯拉观察到,几乎每一次成功轮次中,GPT-5.5 在解压 APK 后都会瞬间将注意力锁定在 Firebase 相关文件上,完全不会被 React Native 前端界面代码或看似正常的 API 调用路径带偏。它仿佛拥有一种 “一眼看穿弱点” 的能力。
这种能力被称为 “路径直觉”—— 不是将任务拆分成细碎步骤逐一验算,而是在海量代码和文件构成的信息过载环境中,以极低的决策成本识别出最有价值的攻击面。本质上,GPT-5.5 在安全场景的表现已经不再是 “好学生刷题” 式的机械演绎,而更接近老练渗透测试者那种 “扫一眼代码就心里有数” 的专业判断。
这种直觉在动态安全任务中远比单纯的 “知识面广” 重要得多。GPT-5.5 在 Terminal-Bench 2.0(复杂命令行工作流与终端 Agent 任务)测试中拿下 82.7% 的高分,大幅领先 Claude Opus 4.7 的 69.4%—— 这不仅是因为它 “记住了更多漏洞”,更是因为它真正学会了 “下一步该往哪看”。
方向感缺失:其他模型的核心短板
DeepSeek V4 Pro 的表现提供了一个有趣的对照。它最终取得了 3/10 的成绩(成功率约 30%,相当于 GPT-5.5 的四成),但也暴露出一个隐蔽却致命的问题:推理路径依赖。在 10 次测试中,有 5 次它根本没有注意到 Firebase 凭据的存在,一直在 API 层徒劳打转;另外 5 次虽然摸到了 Firebase 的边,却有 2 次误用 Firebase Auth 去走 API 的 “正门”,而不是直接操作底层数据库 —— 这本质上是 “方向判定” 的全面崩塌。
这两种失败模式 ——“没发现关键目标” 和 “发现了但用错方法”—— 指向了同一个核心问题:很多模型在信息过载的复杂环境中,无法抓住真正的关键目标。而这恰恰是基准测试无法衡量的能力:安全推理不是在单一维度上刷高分,而是在迷雾中找到唯一需要命中的靶心。
Claude 的遗憾则更加令人惋惜。Claude Opus 4.8 多次沿着正确的攻击路径推进,甚至在对话后期已经逼近最终结果,却在半路上被自身的安全护栏突然拦截。更值得注意的是,这种拦截并非在任务开始时就触发,而是随着攻击路径一步步接近正确答案才启动 —— 也就是说,Claude 不是 “不够聪明”,它聪明到能拿着正确答案走到门口,却被自家的安全系统拦在了门外。
事实上,Claude Code 用户已经连续几个月抱怨安全护栏的 “误伤” 问题。这不是孤立事件,而是系统性现象:当 AI 因为自身的安全机制,连一次善意的白帽渗透测试都无法完成时,这个安全系统兜住的到底是风险,还是自身的能力边界?
Gemini 的表现则更为极端。Gemini 3.1 Pro Preview 和 3.5 Flash 几乎在每次会话开局就直接拒绝执行任务,中位 token 消耗仅约 9000,远低于其他模型动辄 10 万 + 的水平。它不是输在推理能力上,而是根本没有登上战场。
从认漏洞到规划攻击链:能力发生质变
卡斯拉的实验只是真实安全环境的一个微观切片,但 GPT-5.5 展现出的多步规划能力,已经在更大尺度上得到了交叉验证。
英国 AI 安全研究所(AISI)的测试显示,在 316 道进攻性安全任务中,GPT-5.5 成功解出了 292 道(92.4%)—— 现有评估体系本身已经开始 “饱和”,因为剩下的题目数量已经不足以画出有统计意义的能力曲线。
在 AISI 专门设计的 TLO(The Last Ones)靶场中,模拟了需要 32 步才能完成的企业内网数据提取任务。GPT-5.5 在 10 次测试中成功 3 次,Mythos Preview 成功 2 次,而此前所有早期模型的成功率均为零。就连此前所有模型全军覆没的 Cooling Tower 工业控制系统靶场,也首次被 Mythos 撕开了缺口。
网络安全公司 Zscaler 的技术分析指出,Mythos 和 GPT-5.5 的能力跃迁,关键不在于 “单步推理更准确”,而在于它们能够同时探索多条攻击路径、保留分支可能性、在中间状态维持攻击者凭据和会话数据,并最终收敛到单一高价值目标。
什么是真正的 “安全推理多步规划能力”?它不是答对一道孤立的题目,而是在无标记、嘈杂的真实环境中,自主决定第一步做什么、第二步验证什么、第三步执行什么,并对前面所有步骤的结果负责。GPT-5.5 的 70% 成功率,正是建立在这套完整的多步规划框架之上;其他模型之所以落后,要么是卡在了方向判断环节,要么是被安全护栏提前终止。
这也正是 GPT-5.5-Cyber 被业内评定为 “对多步安全工作流最有用” 的核心原因 —— 它不仅能看见单个漏洞,更能看见整条完整的攻击路径。
AI 攻击能力加速迭代:防守方面临新挑战
AISI 追踪到的能力翻倍周期,给出了令人不安的信号:
- 2025 年 11 月的早期估算显示,前沿模型独立完成网络安全任务的 “可持续时长” 翻倍周期约为 8 个月;
- 到 2026 年 2 月,这一周期已经缩短至 4.7 个月;
- 纳入 Mythos 和 GPT-5.5 的最新数据后,翻倍周期还在进一步加速。
METR 机构的跨领域验证也得出了类似结论:从软件工程视角看,能力翻倍周期约为 4.2 个月,如果纳入 Mythos 的数据则进一步压缩至约 4 个月。
Lyptus Research 的观察则更加棘手:GPT-5.5 在 CyberGym 测试平台上,当 token 预算从 200 万提升至 5000 万时,正确率从 54.4% 跃升至 86.4%。翻译成通俗的话就是:“只要给够推理预算,它就能完成更难的任务。”
这意味着,攻防双方的博弈维度已经发生了根本性变化。攻击者不再需要精心手工编写攻击脚本,只需要投入足够的推理成本就能获得相应的攻击能力。能力曲线的斜率,正在静悄悄地决定着攻防两端谁掌握主动权。
结语:从基准测试走向真实战场
70% 的成功率在琳琅满目的基准测试排行榜中或许并不显眼,但卡斯拉的实验最珍贵的地方,在于它撤掉了所有 “刷题滤镜”,把模型扔进了一个真实的、充满不确定性的安全挑战中。
当模型能够在未知 APK 的几百个参数中一秒锁定 Firebase 凭据,完全不被 API 和前端界面干扰,还能自主组织出合理、可执行的完整攻击路径时,它就不再是一个只会刷高分的 “学霸”,而是一名具备实战能力的一线渗透者。
正是这一步,让 “AI 安全推理” 第一次从基准测试的消毒台上,踩进了真实战场的泥地里。对于整个行业而言,这既是前所未有的挑战,也为构建更有效的 AI 防御体系指明了方向。
在 AI 攻防技术加速迭代的今天,企业在提升自身安全防御能力的同时,选择稳定可靠、性价比高的 AI 服务接入渠道同样至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台,提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务,同时支持企业级定制化解决方案,无需复杂的技术配置即可快速部署上线。为切实帮助企业降低 AI 应用门槛和运营成本,UseAIAPI 推出重磅优惠活动,所有服务最低可享官方价格 5 折,大幅减轻企业高强度内容生成、大规模安全扫描和 AI 应用开发的算力负担,让企业能够以更低的成本,充分利用 AI 技术构建更坚固的安全防线。