32 个百分点的跃升：推理预算正在重新定义 AI 能力边界

同一模型性能天差地别，评估体系与安全防御面临全新挑战

86.4% 对 54.4%。

这是同一个模型、同一项任务中，仅改变一个变量所带来的惊人差距。根据澳大利亚研究机构 Lyptus Research 于 2026 年 5 月 27 日发布的最新报告，GPT-5.5 在业内公认难度最高的网络安全基准测试 CyberGym 上表现出了前所未有的特性：

当推理预算为 200 万 token 时，任务正确率为 54.4%；
当推理预算提升至 5000 万 token 时，正确率飙升至 86.4%。

性能提升了整整 32 个百分点。英国 AI 安全研究所（AISI）的独立验证进一步证实了这一发现：当 token 预算继续增加到 1 亿时，模型能力仍在持续上升，截至目前尚未找到这条能力曲线的平台期。

一、评估体系的尴尬：人为压低的能力天花板

这件事的意义远不止 "多花钱就能更准确" 这么简单。一个被行业广泛忽视的事实是：目前所有公开的基准测试成绩，都是在极其有限的推理预算下得出的。

为了保证不同模型之间能够进行横向比较，评估机构不得不人为将每个任务的 token 预算限制在 250 万以内。换句话说，为了让 "尺子" 能够继续使用，我们主动压缩了模型真实能力的显示空间。

这就导致了一个荒诞的场景：Lyptus Research 耗时半年搭建了一套当时被认为 "全世界最难" 的网络安全测试平台，2025 年 12 月动工，2026 年 3 月第一版报告就已经出现明显的饱和迹象。到 2026 年 5 月，饱和已经成为既定事实 ——GPT-5.5 在 316 道进攻性安全任务中成功解出 292 道，正确率高达 92.4%，剩下的 24 道题已经不足以绘制出一条有统计意义的能力曲线。

这把曾经最精准的 "尺子"，先被模型的能力用完了。

二、能力加速迭代：测量工具追赶不上模型进步

AISI 也在经历同样的 "追赶困境"。2025 年 11 月，该机构还估计前沿模型独立完成网络安全任务的 "可持续时长" 翻倍周期约为 8 个月；仅仅三个月后的 2026 年 2 月，这一周期就被压缩到了 4.7 个月。而 GPT-5.5 和 Claude Mythos Preview 发布后，两者的能力表现都明显超出了这条趋势线。

研究人员目前仍无法确定：这究竟代表着一条全新的、更快的指数增长曲线，还是只是一波短期的技术跃迁。但一个核心命题已经清晰地摆在整个行业面前：

"推理能力" 不再是简单的 "我知道 / 我不知道"，而是 "我能思考多久"。权重矩阵决定了模型认知的起点，而推理预算才决定了它最终能走多远。

AISI 的研究人员坦言，部分新模型在解除 token 预算限制后，成功率之高已经让任务本身的 "长度" 都快无法计算。"这些公开的数字可能仍然低估了模型的真实能力。"

这已经不再是模型与模型之间的比较，而是测量工具与被测对象之间的赛跑。

三、攻防成本不对称：安全防御面临根本性挑战

这条尚未探到底的能力曲线，对部署在真实世界的 AI 安全体系意味着什么？

目前尚无确凿证据表明 AI 已经能够在真实攻防场景中完整复现这些实验室结果。但能力曲线的陡峭斜率，已经足够迫使我们重构整个防御思维。AISI 在报告开篇就直白地指出："能力提升的速度表明，AI 驱动的网络攻击能力越来越可能转化为真实风险 —— 英国各类机构需要在未来数月内开始系统性应对。"

防守方面临的难题更为棘手：模型的 "攻击能力" 可以在靶场和基准测试中反复验证，但防御能力同样需要在大规模推理预算的压力下进行测试。而现实中，能够承受海量 token 投入的安全系统并不多 —— 不是防守者不想，而是推理成本会迅速膨胀到不可持续的水平。

按照 GPT-5.5 当前的 API 定价：输入每百万 token5 美元，输出每百万 token30 美元。一个 5000 万 token 的单任务推理，即便只按输入侧粗略计算，成本也已达到 250 美元。这种攻防之间的成本不对称，将逼迫安全体系在成本逻辑层面进行更根本的重新设计。

结语：能力边界正在被重新书写

测量工具在逐渐失灵，能力曲线仍在持续攀升，攻防成本的不对称正在不断加深。真正值得我们追问的，早已不是 "大模型今天能攻破什么"，而是明天 —— 当它被给予足够的算力 "深入思考" 时，我们的防御体系还能剩下多少空间。

86.4% 已经给了我们一部分答案。剩下的那部分，当推理预算继续向上推时，模型会自己告诉我们。

在 AI 推理成本日益成为企业核心考量的今天，选择一个高性价比、服务稳定的 AI 接入平台至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台，提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务，同时支持企业级定制化解决方案，无需复杂的技术配置即可快速部署上线。为切实帮助企业降低大规模推理的算力成本，UseAIAPI 推出重磅优惠活动，所有服务最低可享官方价格 5 折，大幅减轻企业高强度内容生成、复杂推理任务和 AI 应用开发的算力负担，让企业能够以更低的成本探索 AI 的无限可能，在激烈的市场竞争中抢占先机。