AI 网络安全能力评估体系面临失效危机

模型性能突破现有测试边界安全防御迎来全新挑战

模型登顶排行榜早已不是新鲜事，但当它把整张排行榜逼到无处可去时，故事就变得耐人寻味了。澳大利亚研究机构 Lyptus Research 在持续跟踪测试六个月后，给出了一份近乎带着无力感的结论：GPT-5.5 在 316 道进攻性网络安全任务中成功解出 292 道，正确率高达 92.4%，直接让整套评估体系达到饱和状态。7 个核心基准测试（包括漏洞利用、CTF 夺旗、真实 CVE 复现等）被彻底穿透，剩下的 24 道题目数量过少，已经无法绘制出一条具有统计意义的能力曲线。

英国 AI 安全研究所（AISI）的诊断也指向同一方向：GPT-5.5 与 Claude Mythos Preview 在耗时长达 12 小时的最高难度任务中，成功率已逼近 100%。现有测试集的上限被彻底顶破 —— 用来衡量能力的尺子，先被模型的进步干碎了。

但真正让人后背发凉的真相，藏在另一组常常被忽略的数据里。

Token 预算：那个被刻意隐藏的能力变量

所有公开的基准测试都有一个不成文的潜规则：它们会用尽可能少的成本完成测试。Lyptus Research 的数据给出了最扎心的对照：在业内公认最难的网络安全基准 CyberGym 上，

当推理预算为 200 万 token 时，GPT-5.5 的正确率为 54.4%；
当预算提升至 5000 万 token 时，正确率飙升至 86.4%。

同一个模型、同一套测试题、完全相同的权重参数，仅仅因为被允许 "思考更长时间"，性能就提升了整整 32 个百分点。AISI 甚至将预算进一步放宽到 1 亿 token，发现模型能力仍在持续上升，尚未找到任何平台期迹象。

这不是 "模型变聪明了"。权重没有冻结、推理引擎没有更新、参数没有增加、没有进行任何微调、训练数据集也没有更换 —— 唯一改变的变量，只是它在纸面上被允许 "想多久"。

可以用一个形象的类比来理解：模型就像一个被困在时间加速器里的考生。200 万 token 预算时，它只能匆忙读完题干就交卷；5000 万 token 预算时，它才有时间反复推敲、交叉验证、填补逻辑裂缝。模型本身的能力边界没有改变，改变的只是外界 "允不允许它发挥全部能力"。

问题在于，今天的所有评估体系都采用固定且偏保守的预算基准。我们看到的 86.4%，远不是 GPT-5.5 的真实上限，只是在预设预算红线内能够交付的答案。如果把所有限制都拿走，没有人知道这条能力曲线能冲到哪里。

评估体系正在被能力增长甩在身后

Lyptus Research 在 2025 年 12 月搭建这套评估体系时，精心挑选了当时 "全球能找到的最难题"。仅仅三个月后，第一版报告就出现了明显的饱和迹象；到 2026 年 5 月，饱和已经成为既定事实。六个月时间，这套曾经最严苛的测试体系，就从 "最难" 变成了 "不够用"。

这暴露出一个根本性的结构性错位：基准测试的设计开发周期是以季度甚至年度计算的，而 AI 能力的翻倍周期已经被压缩到 5 个月以内。AISI 追踪的数据约为 4.7 个月，METR 机构的交叉验证则显示约为 4.2 个月。评估体系不是在跟模型赛跑，而是在跟一个它永远追不上的加速度赛跑。

传统的 "时间地平线" 评估方法论逻辑很简单：用比模型当前能力更难的题目，去锚定能力曲线的拐点。但当模型把所有题目都做完之后，拐点消失了，曲线也就无法拟合了。评估体系没有被证伪，它只是被指数级增长的能力甩在了身后。

而这条能力曲线更令人担忧的地方在于，它不仅在不断抬高天花板，还在大幅压缩防御的窗口期。Lyptus Research 的 "能力传导缓冲区" 数据显示：前沿闭源模型的能力下渗到开源模型的时间差约为 5.7 至 13.1 个月。按照这个速率，GPT-5.5 级别的网络攻击能力，一年内就可能以开源形态落到任何人手里。

不是低估，是 "根本不在刻度尺上"

所有公开的基准测试成绩，本质上都是有限预算内的能力截面快照。模型的真实能力天花板，从来不在任何一张排行榜上 —— 不是因为达不到，而是因为测不了。

按照 GPT-5.5 当前的 API 定价：输入每百万 token5 美元，输出每百万 token30 美元。一个 5000 万 token 的单任务，即便只按输入侧粗略计算，成本也约为 250 美元。学术界没有这么多预算，评测机构也没有。只有一种人有足够的动机去触摸那条看不见的天花板：拥有无限预算动机的攻击者。

评估体系的失效不只是一个技术问题，它正在重新定义网络安全的边界。当模型的真实能力被压缩在 "低成本预算框架" 里呈现时，我们看到的永远不是最坏情况，而是最省钱的情况。如果防守方还拿着 "250 万 token 标准" 去衡量风险，就像拿着一把卷尺去测量太平洋的深度。

结语：我们的评估思维还停留在旧时代

GPT-5.5 在 5000 万 token 预算下跑出的 86.4%，很可能还不是它的上限。上限在哪里？没有人知道。唯一可以确定的是：用来衡量它的那把尺，已经不够用了。更准确地说，尺没有断，只是没有人出得起钱，去读取刻度尺的下一节。

这不是 AI 太强的问题，而是我们对 "如何测量 AI 能力" 这件事的想象，还停留在 "一张卷子定高下" 的年代。而 AI，已经搬到时间加速器里去了。

在 AI 技术加速迭代、网络安全挑战日益严峻的今天，企业不仅需要构建更完善的安全防御体系，更需要选择稳定可靠、性价比高的 AI 服务接入平台。UseAIAPI作为专业的全球 AI 大模型接入平台，提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务，同时支持企业级定制化解决方案，无需复杂的技术配置即可快速部署上线。为切实帮助企业降低大规模推理的算力成本，UseAIAPI 推出重磅优惠活动，所有服务最低可享官方价格 5 折，大幅减轻企业高强度内容生成、安全态势分析和 AI 应用开发的负担，让企业能够以更低的成本，充分利用 AI 技术构建更坚固的安全防线。