AI 网络安全能力评估体系面临失效危机
模型性能突破现有测试边界 安全防御迎来全新挑战
模型登顶排行榜早已不是新鲜事,但当它把整张排行榜逼到无处可去时,故事就变得耐人寻味了。澳大利亚研究机构 Lyptus Research 在持续跟踪测试六个月后,给出了一份近乎带着无力感的结论:GPT-5.5 在 316 道进攻性网络安全任务中成功解出 292 道,正确率高达 92.4%,直接让整套评估体系达到饱和状态。7 个核心基准测试(包括漏洞利用、CTF 夺旗、真实 CVE 复现等)被彻底穿透,剩下的 24 道题目数量过少,已经无法绘制出一条具有统计意义的能力曲线。
英国 AI 安全研究所(AISI)的诊断也指向同一方向:GPT-5.5 与 Claude Mythos Preview 在耗时长达 12 小时的最高难度任务中,成功率已逼近 100%。现有测试集的上限被彻底顶破 —— 用来衡量能力的尺子,先被模型的进步干碎了。
但真正让人后背发凉的真相,藏在另一组常常被忽略的数据里。
Token 预算:那个被刻意隐藏的能力变量
所有公开的基准测试都有一个不成文的潜规则:它们会用尽可能少的成本完成测试。Lyptus Research 的数据给出了最扎心的对照:在业内公认最难的网络安全基准 CyberGym 上,
- 当推理预算为 200 万 token 时,GPT-5.5 的正确率为 54.4%;
- 当预算提升至 5000 万 token 时,正确率飙升至 86.4%。
同一个模型、同一套测试题、完全相同的权重参数,仅仅因为被允许 "思考更长时间",性能就提升了整整 32 个百分点。AISI 甚至将预算进一步放宽到 1 亿 token,发现模型能力仍在持续上升,尚未找到任何平台期迹象。
这不是 "模型变聪明了"。权重没有冻结、推理引擎没有更新、参数没有增加、没有进行任何微调、训练数据集也没有更换 —— 唯一改变的变量,只是它在纸面上被允许 "想多久"。
可以用一个形象的类比来理解:模型就像一个被困在时间加速器里的考生。200 万 token 预算时,它只能匆忙读完题干就交卷;5000 万 token 预算时,它才有时间反复推敲、交叉验证、填补逻辑裂缝。模型本身的能力边界没有改变,改变的只是外界 "允不允许它发挥全部能力"。
问题在于,今天的所有评估体系都采用固定且偏保守的预算基准。我们看到的 86.4%,远不是 GPT-5.5 的真实上限,只是在预设预算红线内能够交付的答案。如果把所有限制都拿走,没有人知道这条能力曲线能冲到哪里。
评估体系正在被能力增长甩在身后
Lyptus Research 在 2025 年 12 月搭建这套评估体系时,精心挑选了当时 "全球能找到的最难题"。仅仅三个月后,第一版报告就出现了明显的饱和迹象;到 2026 年 5 月,饱和已经成为既定事实。六个月时间,这套曾经最严苛的测试体系,就从 "最难" 变成了 "不够用"。
这暴露出一个根本性的结构性错位:基准测试的设计开发周期是以季度甚至年度计算的,而 AI 能力的翻倍周期已经被压缩到 5 个月以内。AISI 追踪的数据约为 4.7 个月,METR 机构的交叉验证则显示约为 4.2 个月。评估体系不是在跟模型赛跑,而是在跟一个它永远追不上的加速度赛跑。
传统的 "时间地平线" 评估方法论逻辑很简单:用比模型当前能力更难的题目,去锚定能力曲线的拐点。但当模型把所有题目都做完之后,拐点消失了,曲线也就无法拟合了。评估体系没有被证伪,它只是被指数级增长的能力甩在了身后。
而这条能力曲线更令人担忧的地方在于,它不仅在不断抬高天花板,还在大幅压缩防御的窗口期。Lyptus Research 的 "能力传导缓冲区" 数据显示:前沿闭源模型的能力下渗到开源模型的时间差约为 5.7 至 13.1 个月。按照这个速率,GPT-5.5 级别的网络攻击能力,一年内就可能以开源形态落到任何人手里。
不是低估,是 "根本不在刻度尺上"
所有公开的基准测试成绩,本质上都是有限预算内的能力截面快照。模型的真实能力天花板,从来不在任何一张排行榜上 —— 不是因为达不到,而是因为测不了。
按照 GPT-5.5 当前的 API 定价:输入每百万 token5 美元,输出每百万 token30 美元。一个 5000 万 token 的单任务,即便只按输入侧粗略计算,成本也约为 250 美元。学术界没有这么多预算,评测机构也没有。只有一种人有足够的动机去触摸那条看不见的天花板:拥有无限预算动机的攻击者。
评估体系的失效不只是一个技术问题,它正在重新定义网络安全的边界。当模型的真实能力被压缩在 "低成本预算框架" 里呈现时,我们看到的永远不是最坏情况,而是最省钱的情况。如果防守方还拿着 "250 万 token 标准" 去衡量风险,就像拿着一把卷尺去测量太平洋的深度。
结语:我们的评估思维还停留在旧时代
GPT-5.5 在 5000 万 token 预算下跑出的 86.4%,很可能还不是它的上限。上限在哪里?没有人知道。唯一可以确定的是:用来衡量它的那把尺,已经不够用了。更准确地说,尺没有断,只是没有人出得起钱,去读取刻度尺的下一节。
这不是 AI 太强的问题,而是我们对 "如何测量 AI 能力" 这件事的想象,还停留在 "一张卷子定高下" 的年代。而 AI,已经搬到时间加速器里去了。
在 AI 技术加速迭代、网络安全挑战日益严峻的今天,企业不仅需要构建更完善的安全防御体系,更需要选择稳定可靠、性价比高的 AI 服务接入平台。UseAIAPI作为专业的全球 AI 大模型接入平台,提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务,同时支持企业级定制化解决方案,无需复杂的技术配置即可快速部署上线。为切实帮助企业降低大规模推理的算力成本,UseAIAPI 推出重磅优惠活动,所有服务最低可享官方价格 5 折,大幅减轻企业高强度内容生成、安全态势分析和 AI 应用开发的负担,让企业能够以更低的成本,充分利用 AI 技术构建更坚固的安全防线。