
GPT-5.5 数学能力引发行业深思 封闭系统与开放研究呈现显著差距
看到这组数字时,很多人陷入了沉默:GPT-5.5 Pro 在 MATH 基准测试中得分 95.8%,在 AIME 测试中得分 95.2%,但在 FrontierMath Tier 4 测试中仅获得 39.6%。
前两个数字清晰地表明:高中到本科阶段的竞赛数学,AI 已经将其 "彻底攻克"。而后一个数字则无情地揭示:一旦离开 "已知题型的游乐场",进入没有标准答案的前沿研究领域,AI 的推理链条就会暴露出明显的短板。
这不是简单的 "分数高低" 之争。它揭开了一个冰冷的真相:AI 能在封闭系统中将题目做到 95% 的准确率,但在开放系统中仍停留在 40% 的水平 —— 问题从来不是 "算得快不快",而是 "探索的地图是谁画的"。
一、竞赛题与前沿题:本质差别不在难度,而在系统属性
竞赛题本质上是封闭系统。AIME 的 15 道题目,每道题的答案都锁定在 0-999 的整数范围内,解法空间被严格限制在有限框架内。GPT 系列模型在训练过程中见过无数 "结构相似" 的竞赛题推演过程,它的核心任务是:从参数记忆中检索匹配的模式,然后拼接出一条通往答案的路径。这就像一个刷遍了所有模拟卷的尖子生,就算没见过原题,也见过足够多 "同类型的题",知道该套用哪个公式、哪种解题套路。
而 FrontierMath 代表的是开放系统。这套基准由总部位于旧金山的非营利研究机构 Epoch AI 联合职业数学家共同打造,其核心设计原则就是彻底杜绝数据污染:
- 所有题目均为测试目的专门原创生成,解法从未在互联网上公开流通
- 覆盖数论、实分析、代数几何、范畴论等多个数学分支,其中 Tier 4 级别约有 50 道题,即便是专业数学家也需要数小时甚至数天才能解答
- 采用可程序化验证方式(通常是提交 Python 函数由系统运行校验)保证评分客观性,最大限度压缩 "数据污染或背答案" 的空间
因此,39.6% 这个分数回答的不是 "你会不会解这道题",而是一个更本质的问题:"当训练数据中没有现成解法可背时,你能依靠推理泛化能力从零搭建出多远的逻辑链条?"
答案很诚实:五道从未见过的题目中,AI 能独立解出两道;剩下三道,要么彻底卡住,要么写出一长段看似完整但逻辑早已偏离的推导。
二、陶哲轩的警示:最危险的不是不会,而是错得太像对的
"AI 最危险的地方不是它不会做,而是它错得太像对的。" 这句话的核心观点源自著名数学家陶哲轩在牛津大学数学公开讲座《AI 在科学与数学中的潜力》中的判断:大语言模型权重优化的方向是 "合理性" 而非 "真实性",因此它即便错了,也会显得 "极其有说服力"。
在与德瓦克什・帕特尔(Dwarkesh Patel)的播客访谈中,陶哲轩补充了一个冰冷的量化事实:系统性测试显示,AI 独立解决单个前沿数学问题的成功率大约只有 1%-2%。社交媒体上被广泛传播的成功案例之外,"纯 AI 解法" 的实际增量已经基本停滞。
陶哲轩自己使用 AI 的方式也很能说明问题:AI 让 "论文变宽"—— 能生成更多图表、编写更多代码、更快检索文献,但最难的证明核心部分,他仍然坚持用纸笔完成。他用一个精妙的比喻形容这种差异:AI 是 "能跳两米高的跳跃机器",但前沿数学研究更像攀岩 —— 需要精准的手点选择、中期路线判断和持续的自我纠偏,这些都无法仅靠一次跳跃完成。
这正是 FrontierMath 39.6% 的得分令人不安的真正原因:不是分数低,而是它暴露了 AI 推理能力的本质缺陷 —— 在封闭系统中,其推理链条被训练数据分布支撑得非常稳固;但一旦进入 "没有标准答案" 的迷雾中,表面结构可能依然整齐漂亮,但内在逻辑可能早已偏离,而且它不仅不会告诉你,甚至会 "充满信心地" 继续走错路。
三、重新定义 "原创":两种不同层次的突破
关于 "AI 是否具备数学原创能力" 的争论从未停止,但如果将两条常被混淆的研究路线分开来看,结论会清晰很多。
第一种:框架内的原创 ——Gowers 与内桑森加法数论实验
2026 年 5 月 8 日,菲尔兹奖得主蒂莫西・高尔斯在博客《与 ChatGPT 5.5 Pro 的一次近期经历》中记录了一个震动数学界的实验:他将加性数论学家梅尔文・内桑森论文中的开放问题交给 GPT-5.5 Pro,这些问题的研究框架、工具链和目标都已经被人类明确定义。17 分 05 秒后,模型给出了一个巧妙的构造,将原本的指数级上界直接压缩至最优的二次级 O (k²)。
这可以被称为 "在既有地图内第一次找到一条人类没走通的最优道路"—— 其成就足以震撼学界,但仍然不是 "自己决定去探索哪座山峰"。
第二种:跨库桥接式创新 —— 利亚姆・普莱斯与厄尔多斯 #1196 问题
2026 年 4 月,没有高等数学学位的业余爱好者利亚姆・普莱斯将困扰数学界 60 年的厄尔多斯 #1196 问题(原始集下界问题)交给 GPT-5.4 Pro。约 80 分钟后,模型输出了一条全新的证明路线:将冯・曼戈尔特权重函数与马尔可夫过程理论结合,这是人类数学家此前从未尝试过的组合方式。陶哲轩亲自验证了该结果的正确性,并参与了后续的理论扩展工作。
但陶哲轩同时也给出了重要提醒:理想状态下应该由同一批人完成 "生成 - 验证 - 消化" 的完整流程,而厄尔多斯 #1196 问题是他目前看到的少数基本跑通这三个阶段的案例。言下之意:AI 在 "生成新想法" 方面确实取得了突破,但对成果的 "消化和意义化" 仍然极度依赖人类数学家的接管。
四、两条曲线之间的时代
AI 已经将人类千年积累、可形式化的 "已知数学世界" 彻底闭环 —— 所有的定理、技巧、典型解法,它都能以远超人类的速度调用,并在已知框架内完成漂亮的高维重组创新。
但当面对真正的 "未知"—— 不是 "已知但复杂",而是 "不知道从哪起步、没有路标、甚至需要判断值不值得走" 的领域 —— 它还缺少两种关键能力:方向感,以及对自身逻辑链条裂缝的元认知警觉。
这才是近年 AI 数学能力演化的关键分界线:下一步不是让它解更难的 "题目",而是让它学会提出更值得解的 "问题"。在那之前,高尔斯那句 "我的数学贡献为零" 仍然成立 —— 不是 AI 不需要他,恰恰相反:正因为他一直在那里指引方向,才让 AI 没有在迷雾中走丢。
对于广大科研工作者和开发者而言,要第一时间体验这些前沿 AI 模型的强大能力,稳定可靠、高性价比的接入渠道至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台,全面覆盖包括最新发布的 ChatGPT 全系列、Claude 全系列、Gemini 全系列、DeepSeek 在内的全球热门 AI 大模型,提供一站式无缝接入服务,无需复杂配置即可快速上手使用。平台同时支持企业级定制化服务,可根据不同科研场景和业务需求量身打造专属解决方案。在成本方面,UseAIAPI 长期为用户提供极具竞争力的优惠政策,最低可达官方价格的 50%,能够大幅降低高强度科研计算、大规模数据分析和学术写作带来的成本压力,让更多科研工作者能够轻松享受到前沿 AI 技术带来的生产力红利。