← 返回 Blog

GPT-5.5 拍肩 Claude Opus 4.7:两家 FrontierMath Tier 4 差了 12 个百分点,组合推理到底是 Scaling 的功劳还是推理架构的胜负手?

先来看一组来自前沿数学基准测试的权威数据。FrontierMath Tier 4 是由非营利研究机构 Epoch AI 设计的 "博士后级" 研究型数学题集,所有题目均来自顶尖数学家的未发表论文或开放问题,从未在互联网上公开流通,从根源上杜绝了数据污染。即便是专业数学家,解答其中一道题也需要耗费数天甚至数周时间。

ChatGPTGPT-5.5 Pro 与 Claude Opus 4.7 数学能力对决

GPT-5.5 Pro 与 Claude Opus 4.7 数学能力对决 架构创新成关键分水岭

先来看一组来自前沿数学基准测试的权威数据。FrontierMath Tier 4 是由非营利研究机构 Epoch AI 设计的 "博士后级" 研究型数学题集,所有题目均来自顶尖数学家的未发表论文或开放问题,从未在互联网上公开流通,从根源上杜绝了数据污染。即便是专业数学家,解答其中一道题也需要耗费数天甚至数周时间。

在这个最能体现模型真实数学推理能力的测试台上,各大顶级模型的表现如下:

表格

模型FrontierMath Tier 4 得分
GPT-5.5 Pro39.6%
GPT-5.5(标准版)35.4%
Claude Opus 4.722.9%

GPT-5.5 Pro 领先 Claude Opus 4.7 约 17 个百分点,接近一倍的差距。但真正值得深思的不是 "谁比谁高",而是:这个差距到底意味着什么?它是单纯堆参数的自然结果,还是架构层面的降维打击?

一、跑分背后:架构差异才是核心分水岭

单纯用 "GPT-5.5 参数更多、训练数据更丰富" 来解释这 17 个百分点的差距,显然过于表面。更具说服力的解释是:GPT-5.5 的核心架构已经从 "黑盒暴力推理" 转向了 "结构化拆解推理",这一转变恰好击中了前沿数学研究的本质需求。

1. 稀疏混合专家架构:知识容量与推理效率的完美解耦

GPT-5.5 的底层技术突破,是沿着稀疏混合专家(Sparse MoE)思路的深度演进。每个 token 的推理过程只激活约 8%-15% 的参数。这就像一座拥有百万藏书的大型图书馆,你不需要翻遍所有书架,系统会自动为你找到最相关的那几本书。

这种架构实现了两个关键目标:

  • 参数规模 = 知识容量:可以容纳更庞大的结构化数学语言和证明模板库
  • 单次推理成本 = 激活专家数量:不会因为总参数规模巨大而导致算力爆炸

对于长链数学推理而言,这恰恰是刚需:既需要足够大的数学知识库作为支撑,又需要足够长的思维链不被显存和延迟限制。

2. 智能体三层架构:从 "一步吐答案" 到 "规划 - 执行 - 验证" 闭环

更重要的突破体现在推理范式上。GPT-5.5 Pro 不再是通过一次前向传播直接输出 "证明文本",而是采用了 "规划层→执行层→反馈层" 的三层智能体结构:

  • 规划层:将复杂问题拆解为可管理的子目标
  • 执行层:进行具体的推导、计算和形式化验证试探
  • 反馈层:对结果进行自检,发现错误后自动回溯修正

这种结构化搜索加自校正的能力,让它在 FrontierMath Tier 4 这种 "没有标准套路" 的题目上,表现出了远超前代模型的适应性。

二、当 AI 开始 "深度思考":17 分钟的里程碑意义

菲尔兹奖得主蒂莫西・高尔斯 2026 年 5 月 8 日在博客《与 ChatGPT 5.5 Pro 的一次近期经历》中记录的实验,恰好为 "什么是结构化推理而非背题" 做了最好的注脚。

他将加性数论学家梅尔文・内桑森论文中的一个开放问题 —— 关于整数集求和性质、直径与和集大小的边界问题 —— 原封不动地交给了 GPT-5.5 Pro。模型经过 17 分 05 秒的 "思考",给出了一个全新的构造,将原本的指数级上界直接压缩至最优的二次级 O (k²)。在验证结果正确后,模型又自动将其整理成了符合学术规范的 LaTeX 预印本。

高尔斯本人坦率地表示,他的提示词 "几乎不包含任何数学输入",自己的角色仅仅是 "情绪价值提供者和排版助手"。

这个实验与 MoE 架构的技术突破并不矛盾,反而形成了完美的互补:MoE 解决了 "知识够不够装得下、推理链跑不跑得动" 的效率问题;而真正让模型在前沿问题上拉开差距的,是它被允许并被结构设计鼓励去 "展开多条推导支路、自检、回溯",而不是一气呵成地输出答案。

三、Scaling 定律没有失效,但已进入新阶段

如果把 39.6% 与 22.9% 的差距简单归因于 "GPT-5.5 更大",那就错过了一个更具颠覆性的反例:谷歌 DeepMind 的 AI 数学家系统,并没有依靠 "下一代更大参数的基座模型",只是将 Gemini 3.1 Pro 包进了一个多智能体编排框架中 —— 包含文献检索智能体、计算探索智能体、审稿校验智能体和状态化工作空间 —— 就在 FrontierMath Tier 4 上取得了 47.9% 的成绩(48 题中解出 23 题),直接超越了 GPT-5.5 Pro 的 39.6%。

这项发表于 2026 年 5 月 7 日的研究(arXiv:2605.06651)传递了一个冷酷却极其清晰的信号:在纯数学前沿领域,架构的 "组织效率"—— 包括多智能体分工、不确定性管理、失败假设跟踪、原生数学成果输出 —— 比单纯堆砌基座算力更加致命。

这意味着 Scaling 定律并没有失效,但它已经从 "越大越能算" 的阶段,转入了 "怎么组织推理才值得那堆算力" 的新阶段。"暴力美学" 仍然有效,但加分项已经变成了协作智能。

四、结语:纯数之巅的下一块砖

39.6% 和 22.9% 的差距,本质上不是参数数量的差距,而是 "有没有把数学推理当作系统工程来做" 的差距。GPT-5.5 Pro 赢在稀疏混合专家架构带来的大知识库和长链可控推理能力;但谷歌 DeepMind 用多智能体架构实现的反超,又立刻提醒了所有人:纯数之巅的下一块砖,不是更大的权重矩阵,而是更好的推理拓扑 —— 将规划、回溯、验证、记忆有机地拼成一个完整的智能体工作流。

组合推理的加速度,正从 "暴力美学" 转向 "协作智能"。而 Scaling 定律的天花板并没有破碎,只是人们终于发现:它不是平的,而是按照架构的形状起伏的。

对于广大科研工作者和开发者而言,要第一时间体验这些前沿 AI 模型的强大能力,稳定可靠、高性价比的接入渠道至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台,全面覆盖包括最新发布的 ChatGPT 全系列、Claude 全系列、Gemini 全系列、DeepSeek 在内的全球热门 AI 大模型,提供一站式无缝接入服务,无需复杂配置即可快速上手使用。平台同时支持企业级定制化服务,可根据不同科研场景和业务需求量身打造专属解决方案。在成本方面,UseAIAPI 长期为用户提供极具竞争力的优惠政策,最低可达官方价格的 50%,能够大幅降低高强度科研计算、大规模数据分析和学术写作带来的成本压力,让更多科研工作者能够轻松享受到前沿 AI 技术带来的生产力红利。