同一个模型性能为何天差地别？推理预算正在改写 AI 能力边界

32 个百分点跃升揭示：AI 能力上限不在参数，而在推理投入

54.4% 和 86.4%。

这两个数字放在一起产生的震撼效果，远超不同参数规模模型之间的性能差异。2026 年 5 月 27 日，澳大利亚研究机构 Lyptus Research 发布的一份报告引发全球 AI 行业震动：GPT-5.5 在业内公认最难的网络安全基准测试 CyberGym 上，当推理预算为 200 万 token 时，正确率为 54.4%；而当预算提升至 5000 万 token 时，正确率飙升至 86.4%。同一个模型，仅通过调整一个参数，性能就提升了整整 32 个百分点。

英国 AI 安全研究所（AISI）的进一步验证更令人惊讶：当 token 预算继续增加到 1 亿时，模型能力仍在持续上升，尚未出现任何平台期迹象。

这不是模型架构的升级，不是权重参数的微调，也不是训练数据的扩充。唯一改变的变量，只是开发者调用 API 时随手填写的那个max_tokens参数。

推理能力的天花板，从来不在权重矩阵里，而在推理预算里。

权重定下限，预算定上限：AI 能力边界被重新定义

同一个权重完全冻结的模型，为什么多给一些 token 就会突然变 "聪明"？答案藏在近年来学术界快速发展的 "推理时扩算"（inference-time scaling）研究领域中。

一系列突破性研究已经证明：在测试阶段投入更多计算资源 —— 无论是更长的思考链、更多的 token 生成，还是多样本投票 —— 所带来的性能提升，完全可以与直接扩大模型参数规模相提并论。当模型被允许 "想久一点" 时，它在复杂推理任务上的表现会呈现系统性改善，而非随机波动。

这一看似简单的技术细节，正在从根本上颠覆我们对 AI 能力边界的传统认知。

过去，人们普遍认为一个模型 "能做什么、不能做什么" 是在训练阶段就已经确定的定值：参数量、训练数据量、训练计算预算 —— 这些刻在墙上的数字，决定了模型的能力天花板。但 GPT-5.5 在 CyberGym 上的表现揭示了一个全新的事实：

权重只决定能力的下限，而 token 预算才决定能力的上限。

"200 万 token 时是 54.4%，5000 万 token 时就能达到 86.4%。如果继续往上推，没有人知道这条曲线会停在哪里 —— 因为我们还没有找到那个极限点。" 研究人员表示，当给予足够的算力支持，模型甚至可以连续推理超过 12 小时，其能力表现已经超出了现有评估图表的测量范围。

评估体系的困境：人为压低的能力天花板

这件事真正让业界感到不安的地方在于：目前几乎所有公开的基准测试成绩，都是在极其有限的 token 预算下跑出来的。而模型的真实能力天花板，远比这些账面数字要高得多。

Lyptus Research 在 2025 年 12 月搭建 CyberGym 评估体系时，挑选的已经是当时全球范围内能够找到的最具挑战性的安全任务。仅仅三个月后，第一版报告就出现了明显的饱和迹象；到 2026 年 5 月，这套曾经被认为 "最难" 的测试集，已经无法准确衡量最新模型的真实能力。半年时间，从 "最难" 到 "不够用"，评估体系的迭代速度远远跟不上模型能力的增长速度。

这里存在一个根本性的矛盾：评估体系希望将模型能力锚定在一个可比较的标准点上，但 token 预算这个变量本身就是一条无限延伸的曲线。

你把预算钉在 200 万，得到的是 54% 的正确率；
放宽到 5000 万，它就能轻松突破 86%；
再往上推，能力还会继续增长。

AISI 的研究人员也坦诚表示，他们目前将每个任务的 token 预算人为限制在 250 万，只是为了保证不同模型之间 "能够进行比较"。但他们同时承认，如果取消这个上限，模型的成功率会高到难以在合理时间内完成测量。在测试中，当 token 预算达到 1 亿时，最新模型的表现 "仍呈现明显的上升趋势"。

换句话说，我们现在看到的所有基准测试分数，本质上都是为了 "还能出分" 而人为压低的结果。

攻防失衡：预算不对称带来的安全挑战

但这 32 个百分点的性能跃升不是免费的。

按照 GPT-5.5 当前的 API 定价：输入每百万 token5 美元，输出每百万 token30 美元。5000 万 token 的单任务推理成本，即便只按输入侧粗略计算，也已经达到 250 美元量级。

这个价格对普通用户来说或许不菲，但对有组织的攻击者而言完全可以接受 —— 尤其是针对金融、能源、关键基础设施等高价值目标时，几百美元的成本几乎可以忽略不计。而这正是最棘手的问题：

防守方必须在有限的 token 预算内快速完成安全检查，而攻击方却可以对预算随意加码。

Lyptus Research 的追踪数据显示，AI 的进攻性网络安全能力大约每 5-6 个月就会翻一倍；而 AISI 的最新测量更是将这一周期缩短到了约 4.7 个月 —— 能力增长的斜率本身还在不断变陡。这种攻防双方的预算不对称，正在给全球网络安全体系带来前所未有的挑战。

结语：重新认识 AI 的真实能力

对开发者和企业用户而言，这件事的意义远比 "多花钱就能更准确" 要深刻得多。

今天你在任何榜单上看到的模型分数，几乎一定可以通过增加 token 预算的方式被超越。那些所谓的 "能力上限"，很多时候并不是模型本身的极限，而是测量者没有给它足够的 token 去发挥。

学术界的另一项研究恰好印证了这一点：基础任务在短推理链上的平均准确率约为 61%，当拉长到 95 步长链时会暴跌至 20%；但只要给予足够的 token 预算，这种能力衰减曲线会被大幅延后。

54.4% 和 86.4% 之间到底发生了什么？答案其实很简单：不是模型变好了，而是它被允许在复杂任务上 "停留更久" 了。当 AI 被允许深入思考一个问题，而不是匆匆给出答案时，它展现出的能力远超任何基准测试分数所能描述的范围。

评估体系没有 "坏"，只是我们在 token 上太小气了。下次再看到某个令人惊叹的基准测试成绩时，或许我们应该先问一句：那个数字背后，藏着多少个 token？

在 AI 技术加速迭代、推理成本成为企业核心考量的今天，选择一个高性价比、服务稳定的 AI 接入平台至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台，提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务，同时支持企业级定制化解决方案，无需复杂的技术配置即可快速部署上线。为切实帮助企业降低大规模推理的算力成本，UseAIAPI 推出重磅优惠活动，所有服务最低可享官方价格 5 折，让企业能够以更低的成本探索 AI 的无限可能，在激烈的市场竞争中抢占先机。