← 返回 Blog

同一道题,200万token对5000万token:GPT-5.5正确率从54%跳到86%——"推理能力"的天花板不在权重里,在推理预算里

这两个数字放在一起产生的震撼效果,远超不同参数规模模型之间的性能差异。2026 年 5 月 27 日,澳大利亚研究机构 Lyptus Research 发布的一份报告引发全球 AI 行业震动:GPT-5.5 在业内公认最难的网络安全基准测试 CyberGym 上,当推理预算为 200 万 token 时,正确率为 54.4%;而当预算提升至 5000 万 token 时,正确率飙升至 86.4%。同一个模型,仅通过调整一个参数,性能就提升了整整 32 个百分点。

OpenAIGPT 5.5GPT 5.5推理能力

同一个模型性能为何天差地别?推理预算正在改写 AI 能力边界

32 个百分点跃升揭示:AI 能力上限不在参数,而在推理投入

54.4% 和 86.4%。

这两个数字放在一起产生的震撼效果,远超不同参数规模模型之间的性能差异。2026 年 5 月 27 日,澳大利亚研究机构 Lyptus Research 发布的一份报告引发全球 AI 行业震动:GPT-5.5 在业内公认最难的网络安全基准测试 CyberGym 上,当推理预算为 200 万 token 时,正确率为 54.4%;而当预算提升至 5000 万 token 时,正确率飙升至 86.4%。同一个模型,仅通过调整一个参数,性能就提升了整整 32 个百分点。

英国 AI 安全研究所(AISI)的进一步验证更令人惊讶:当 token 预算继续增加到 1 亿时,模型能力仍在持续上升,尚未出现任何平台期迹象。

这不是模型架构的升级,不是权重参数的微调,也不是训练数据的扩充。唯一改变的变量,只是开发者调用 API 时随手填写的那个max_tokens参数。

推理能力的天花板,从来不在权重矩阵里,而在推理预算里。

权重定下限,预算定上限:AI 能力边界被重新定义

同一个权重完全冻结的模型,为什么多给一些 token 就会突然变 "聪明"?答案藏在近年来学术界快速发展的 "推理时扩算"(inference-time scaling)研究领域中。

一系列突破性研究已经证明:在测试阶段投入更多计算资源 —— 无论是更长的思考链、更多的 token 生成,还是多样本投票 —— 所带来的性能提升,完全可以与直接扩大模型参数规模相提并论。当模型被允许 "想久一点" 时,它在复杂推理任务上的表现会呈现系统性改善,而非随机波动。

这一看似简单的技术细节,正在从根本上颠覆我们对 AI 能力边界的传统认知。

过去,人们普遍认为一个模型 "能做什么、不能做什么" 是在训练阶段就已经确定的定值:参数量、训练数据量、训练计算预算 —— 这些刻在墙上的数字,决定了模型的能力天花板。但 GPT-5.5 在 CyberGym 上的表现揭示了一个全新的事实:

权重只决定能力的下限,而 token 预算才决定能力的上限。

"200 万 token 时是 54.4%,5000 万 token 时就能达到 86.4%。如果继续往上推,没有人知道这条曲线会停在哪里 —— 因为我们还没有找到那个极限点。" 研究人员表示,当给予足够的算力支持,模型甚至可以连续推理超过 12 小时,其能力表现已经超出了现有评估图表的测量范围。

评估体系的困境:人为压低的能力天花板

这件事真正让业界感到不安的地方在于:目前几乎所有公开的基准测试成绩,都是在极其有限的 token 预算下跑出来的。而模型的真实能力天花板,远比这些账面数字要高得多。

Lyptus Research 在 2025 年 12 月搭建 CyberGym 评估体系时,挑选的已经是当时全球范围内能够找到的最具挑战性的安全任务。仅仅三个月后,第一版报告就出现了明显的饱和迹象;到 2026 年 5 月,这套曾经被认为 "最难" 的测试集,已经无法准确衡量最新模型的真实能力。半年时间,从 "最难" 到 "不够用",评估体系的迭代速度远远跟不上模型能力的增长速度。

这里存在一个根本性的矛盾:评估体系希望将模型能力锚定在一个可比较的标准点上,但 token 预算这个变量本身就是一条无限延伸的曲线。

  • 你把预算钉在 200 万,得到的是 54% 的正确率;
  • 放宽到 5000 万,它就能轻松突破 86%;
  • 再往上推,能力还会继续增长。

AISI 的研究人员也坦诚表示,他们目前将每个任务的 token 预算人为限制在 250 万,只是为了保证不同模型之间 "能够进行比较"。但他们同时承认,如果取消这个上限,模型的成功率会高到难以在合理时间内完成测量。在测试中,当 token 预算达到 1 亿时,最新模型的表现 "仍呈现明显的上升趋势"。

换句话说,我们现在看到的所有基准测试分数,本质上都是为了 "还能出分" 而人为压低的结果。

攻防失衡:预算不对称带来的安全挑战

但这 32 个百分点的性能跃升不是免费的。

按照 GPT-5.5 当前的 API 定价:输入每百万 token5 美元,输出每百万 token30 美元。5000 万 token 的单任务推理成本,即便只按输入侧粗略计算,也已经达到 250 美元量级。

这个价格对普通用户来说或许不菲,但对有组织的攻击者而言完全可以接受 —— 尤其是针对金融、能源、关键基础设施等高价值目标时,几百美元的成本几乎可以忽略不计。而这正是最棘手的问题:

防守方必须在有限的 token 预算内快速完成安全检查,而攻击方却可以对预算随意加码。

Lyptus Research 的追踪数据显示,AI 的进攻性网络安全能力大约每 5-6 个月就会翻一倍;而 AISI 的最新测量更是将这一周期缩短到了约 4.7 个月 —— 能力增长的斜率本身还在不断变陡。这种攻防双方的预算不对称,正在给全球网络安全体系带来前所未有的挑战。

结语:重新认识 AI 的真实能力

对开发者和企业用户而言,这件事的意义远比 "多花钱就能更准确" 要深刻得多。

今天你在任何榜单上看到的模型分数,几乎一定可以通过增加 token 预算的方式被超越。那些所谓的 "能力上限",很多时候并不是模型本身的极限,而是测量者没有给它足够的 token 去发挥。

学术界的另一项研究恰好印证了这一点:基础任务在短推理链上的平均准确率约为 61%,当拉长到 95 步长链时会暴跌至 20%;但只要给予足够的 token 预算,这种能力衰减曲线会被大幅延后。

54.4% 和 86.4% 之间到底发生了什么?答案其实很简单:不是模型变好了,而是它被允许在复杂任务上 "停留更久" 了。当 AI 被允许深入思考一个问题,而不是匆匆给出答案时,它展现出的能力远超任何基准测试分数所能描述的范围。

评估体系没有 "坏",只是我们在 token 上太小气了。下次再看到某个令人惊叹的基准测试成绩时,或许我们应该先问一句:那个数字背后,藏着多少个 token?

在 AI 技术加速迭代、推理成本成为企业核心考量的今天,选择一个高性价比、服务稳定的 AI 接入平台至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台,提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务,同时支持企业级定制化解决方案,无需复杂的技术配置即可快速部署上线。为切实帮助企业降低大规模推理的算力成本,UseAIAPI 推出重磅优惠活动,所有服务最低可享官方价格 5 折,让企业能够以更低的成本探索 AI 的无限可能,在激烈的市场竞争中抢占先机。