← 返回 Blog

MATH 95.8%、AIME 95.2%——GPT-5.5 把竞赛数学天花板焊死了,但 FrontierMath Tier 4 的 39.6% 才真正暴露了它的边界

先看一组充满戏剧性对比的数据:GPT-5.5 Pro 在 MATH 基准测试中得分 95.8%,在 AIME 测试中得分 95.2%。这两个数字共同指向一个不可否认的事实:高中到大学本科竞赛难度的数学,已经不再是顶级 AI 的挑战。人类顶尖高中生需要花费数小时才能完成的 15 道 AIME 题目,GPT-5.5 Pro 的准确率已经高到几乎没有提升空间。

ChatGPTGPT-5.5 刷新竞赛数学基准

GPT-5.5 刷新竞赛数学基准 前沿研究领域仍存明显边界

先看一组充满戏剧性对比的数据:GPT-5.5 Pro 在 MATH 基准测试中得分 95.8%,在 AIME 测试中得分 95.2%。这两个数字共同指向一个不可否认的事实:高中到大学本科竞赛难度的数学,已经不再是顶级 AI 的挑战。人类顶尖高中生需要花费数小时才能完成的 15 道 AIME 题目,GPT-5.5 Pro 的准确率已经高到几乎没有提升空间。

但当你翻到 FrontierMath Tier 4 的测试结果时,一切突然变了。

一、竞赛数学的天花板已被焊死

AIME 和 MATH 曾经是衡量大模型数学能力的黄金标准。AIME 共 15 道题,覆盖代数、几何、数论、组合四大领域,答案限定在 0-999 的整数范围内,没有选择题的运气成分,需要完整扎实的推理链条。MATH 基准包含 12500 道竞赛级题目,全部来自 AMC 10/12 和 AIME 历年真题。

当 GPT-5.5 Pro 将这些基准的得分推高到 95% 以上时,一个根本性问题被推到了台前:这些传统基准已经被 "饱和" 了。不是模型突然变得无所不能,而是题库里的题目 —— 无论怎么更换年份、重新排版 —— 其底层推理模式早已被模型吃透。事实上,GPT-5.2 在 2025 年的 AIME 测试中就已经摸到了 99% 的边缘,GPT-5.5 的 95.2% 更像是在补齐最后几个角落的死角。

竞赛数学的大门不仅被 AI 撞开,门槛已经被彻底焊平在了地上。

二、FrontierMath Tier 4:真正的能力分水岭

FrontierMath 的 Tier 4 测试不是为高中生设计的。每一道题都由数学教授和博士后专门创作,属于 "短期科研项目" 级别 —— 即便是专业数学家,也需要花费数天甚至数周才能解出一道。它的设计逻辑与竞赛完全不同:不考察 "已知方法的熟练度",而考察 "在陌生领域从零搭建推理路径" 的能力。

各大模型在 FrontierMath 基准上的表现对比:

表格

模型FrontierMath Tier 1-3FrontierMath Tier 4
GPT-5.5 Pro52.4%39.6%
GPT-5.5(标准版)51.7%35.4%
Claude Opus 4.743.8%22.9%
Gemini 3.1 Pro36.9%16.7%

39.6% 这个数字单看并不低,但放在参照系中,差距和天花板同时显现:

  1. 横向对比:在 Claude Opus 4.7 的 22.9% 和 Gemini 3.1 Pro 的 16.7% 面前,39.6% 确实遥遥领先,约是 Opus 4.7 的 1.7 倍。但绝对值仍卡在 40% 的门槛本身,就值得警惕。
  2. 上限参照:谷歌 DeepMind 的 AI 数学家系统(采用多智能体编排架构,基座仍是 Gemini 3.1 Pro)在 Tier 4 测试中取得了 47.9% 的成绩(48 题中解出 23 题),直接超越了 GPT-5.5 Pro,并且解出了 3 道此前所有系统全军覆没的题目。这说明 39.6% 远非 Tier 4 的上限,更像是 "靠模型规模把简单部分吃完" 的分界碑。
  3. 能力陡降:从 Tier 1-3 的 52.4% 到 Tier 4 的 39.6%,13 个百分点的断崖式下跌直观地表明:一旦题目脱离 "基于已知知识可推导" 的范围,进入 "需要某种原始洞察来激活" 的区域,AI 就像撞上了一堵透明的墙。

三、为什么竞赛能满分,前沿却只有 40%?

这个巨大的落差绝非偶然。

MATH 和 AIME 题目再难,设计时仍然遵循清晰的模式 —— 有标准解法、已知技巧、可套用的通用套路。模型在训练数据中接触过海量同类题目的推演过程,推理时本质上是在进行 "模式匹配 + 路径拼接"。

而 FrontierMath 完全不同。Epoch AI 设计这套基准的核心原则就是防止数据污染:每一道题都是为测试目的专门原创生成的,从未出现在任何公开训练数据中。当你把一道数学家从未公开发表过解法、甚至从未公开发表过答案的题目扔给 GPT-5.5 时,它能依赖的就只剩推理的泛化能力本身 —— 不能背答案、不能从记忆里召回完整解法,只能在思考链上从头搭建。

那 39.6% 的得分,其实回答了一个最尖锐的问题:"在完全看不到原题的情况下,模型能走多远?" 答案很诚实 —— 勉强摸到 40% 的门槛。

值得一提的是,在 MathArena 评估中,GPT-5.5 确实解出了最后一道未解的 IMO 题目,各类顶级拼题准确率也达到 90% 以上。但必须强调:IMO 题目终究是 "竞赛题"—— 边界清晰、预期解法存在、数学界有公认的对错标准。而 FrontierMath Tier 4 的部分题目甚至没有标准答案,评估的不是 "你有没有算对数字",而是 "这条推理路径算不算有价值的数学贡献"。

四、边界不是静止的墙,而是不断后退的门

一个容易被忽略的细节是:39.6% 本身已经是一场巨变。Epoch AI 的数据显示,不到两年时间,AI 在 FrontierMath Tier 4 上的得分从不足 2% 飙升至近 40%,进步了 25 倍以上。而谷歌的多智能体系统又将这个数字推到了 48%。

这不是一堵静止的墙,而是一扇不断后退的门。

但对于任何想把 AI 用于深度数学研究的人来说,现实依然清晰:竞赛级题目对 AI 已经完全失去区分度,在这个水平上讨论 "AI 数学能力" 不再有任何意义。真正有意义的问题已经位移到了 —— 当题目需要真实科研级别的原创洞察时,AI 还要走多远?

对于广大科研工作者和开发者而言,要第一时间体验这些前沿 AI 模型的强大能力,稳定可靠、高性价比的接入渠道至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台,全面覆盖包括最新发布的 ChatGPT 全系列、Claude 全系列、Gemini 全系列、DeepSeek 在内的全球热门 AI 大模型,提供一站式无缝接入服务,无需复杂配置即可快速上手使用。平台同时支持企业级定制化服务,可根据不同科研场景和业务需求量身打造专属解决方案。在成本方面,UseAIAPI 长期为用户提供极具竞争力的优惠政策,最低可达官方价格的 50%,能够大幅降低高强度科研计算、大规模数据分析和学术写作带来的成本压力,让更多科研工作者能够轻松享受到前沿 AI 技术带来的生产力红利。

五、结语

GPT-5.5 Pro 在竞赛数学上的高分告诉你:AI 能在所有 "已知题型" 里完美拿分。而 FrontierMath Tier 4 的 39.6% 告诉你:离成为真正独立的数学合作者,它还有很长一段路要走。

这两句话之间,隔着整整一个时代。