← 返回 Blog

英国AI安全研究所给到1亿token、Lyptus给到5000万:GPT-5.5 攻防benchmark饱和只是表象,真正信号是——推理计算量换能力这条曲线还没有平台期

这是同一个模型、同一项任务中,仅改变一个变量所带来的惊人差距。根据澳大利亚研究机构 Lyptus Research 于 2026 年 5 月 27 日发布的最新报告,GPT-5.5 在业内公认难度最高的网络安全基准测试 CyberGym 上表现出了前所未有的特性

OpenAIGPT 5.5推理预算正在重新定义 AI 能力边界

32 个百分点的跃升:推理预算正在重新定义 AI 能力边界

同一模型性能天差地别,评估体系与安全防御面临全新挑战

86.4% 对 54.4%。

这是同一个模型、同一项任务中,仅改变一个变量所带来的惊人差距。根据澳大利亚研究机构 Lyptus Research 于 2026 年 5 月 27 日发布的最新报告,GPT-5.5 在业内公认难度最高的网络安全基准测试 CyberGym 上表现出了前所未有的特性:

  • 当推理预算为 200 万 token 时,任务正确率为 54.4%;
  • 当推理预算提升至 5000 万 token 时,正确率飙升至 86.4%。

性能提升了整整 32 个百分点。英国 AI 安全研究所(AISI)的独立验证进一步证实了这一发现:当 token 预算继续增加到 1 亿时,模型能力仍在持续上升,截至目前尚未找到这条能力曲线的平台期。

一、评估体系的尴尬:人为压低的能力天花板

这件事的意义远不止 "多花钱就能更准确" 这么简单。一个被行业广泛忽视的事实是:目前所有公开的基准测试成绩,都是在极其有限的推理预算下得出的。

为了保证不同模型之间能够进行横向比较,评估机构不得不人为将每个任务的 token 预算限制在 250 万以内。换句话说,为了让 "尺子" 能够继续使用,我们主动压缩了模型真实能力的显示空间。

这就导致了一个荒诞的场景:Lyptus Research 耗时半年搭建了一套当时被认为 "全世界最难" 的网络安全测试平台,2025 年 12 月动工,2026 年 3 月第一版报告就已经出现明显的饱和迹象。到 2026 年 5 月,饱和已经成为既定事实 ——GPT-5.5 在 316 道进攻性安全任务中成功解出 292 道,正确率高达 92.4%,剩下的 24 道题已经不足以绘制出一条有统计意义的能力曲线。

这把曾经最精准的 "尺子",先被模型的能力用完了。

二、能力加速迭代:测量工具追赶不上模型进步

AISI 也在经历同样的 "追赶困境"。2025 年 11 月,该机构还估计前沿模型独立完成网络安全任务的 "可持续时长" 翻倍周期约为 8 个月;仅仅三个月后的 2026 年 2 月,这一周期就被压缩到了 4.7 个月。而 GPT-5.5 和 Claude Mythos Preview 发布后,两者的能力表现都明显超出了这条趋势线。

研究人员目前仍无法确定:这究竟代表着一条全新的、更快的指数增长曲线,还是只是一波短期的技术跃迁。但一个核心命题已经清晰地摆在整个行业面前:

"推理能力" 不再是简单的 "我知道 / 我不知道",而是 "我能思考多久"。权重矩阵决定了模型认知的起点,而推理预算才决定了它最终能走多远。

AISI 的研究人员坦言,部分新模型在解除 token 预算限制后,成功率之高已经让任务本身的 "长度" 都快无法计算。"这些公开的数字可能仍然低估了模型的真实能力。"

这已经不再是模型与模型之间的比较,而是测量工具与被测对象之间的赛跑。

三、攻防成本不对称:安全防御面临根本性挑战

这条尚未探到底的能力曲线,对部署在真实世界的 AI 安全体系意味着什么?

目前尚无确凿证据表明 AI 已经能够在真实攻防场景中完整复现这些实验室结果。但能力曲线的陡峭斜率,已经足够迫使我们重构整个防御思维。AISI 在报告开篇就直白地指出:"能力提升的速度表明,AI 驱动的网络攻击能力越来越可能转化为真实风险 —— 英国各类机构需要在未来数月内开始系统性应对。"

防守方面临的难题更为棘手:模型的 "攻击能力" 可以在靶场和基准测试中反复验证,但防御能力同样需要在大规模推理预算的压力下进行测试。而现实中,能够承受海量 token 投入的安全系统并不多 —— 不是防守者不想,而是推理成本会迅速膨胀到不可持续的水平。

按照 GPT-5.5 当前的 API 定价:输入每百万 token5 美元,输出每百万 token30 美元。一个 5000 万 token 的单任务推理,即便只按输入侧粗略计算,成本也已达到 250 美元。这种攻防之间的成本不对称,将逼迫安全体系在成本逻辑层面进行更根本的重新设计。

结语:能力边界正在被重新书写

测量工具在逐渐失灵,能力曲线仍在持续攀升,攻防成本的不对称正在不断加深。真正值得我们追问的,早已不是 "大模型今天能攻破什么",而是明天 —— 当它被给予足够的算力 "深入思考" 时,我们的防御体系还能剩下多少空间。

86.4% 已经给了我们一部分答案。剩下的那部分,当推理预算继续向上推时,模型会自己告诉我们。

在 AI 推理成本日益成为企业核心考量的今天,选择一个高性价比、服务稳定的 AI 接入平台至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台,提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务,同时支持企业级定制化解决方案,无需复杂的技术配置即可快速部署上线。为切实帮助企业降低大规模推理的算力成本,UseAIAPI 推出重磅优惠活动,所有服务最低可享官方价格 5 折,大幅减轻企业高强度内容生成、复杂推理任务和 AI 应用开发的算力负担,让企业能够以更低的成本探索 AI 的无限可能,在激烈的市场竞争中抢占先机。