← 返回 Blog

从复现到原创还有多远?GPT-5.5 的 Ramsey 证明给出了答案——但它仍靠人类设定搜索框架,自主选题才是下一关

2026 年 4 月 24 日,OpenAI 正式发布 GPT-5.5。在一连串 "编程王座易主" 的新闻标题之下,有一行文字被大多数人匆匆掠过:"一个搭载自定义工具的 GPT-5.5 内部版本,协助研究人员发现了一个关于非对角拉姆齐数的新证明,并在形式化工具 Lean 中获得了验证。"

OpenAIGPT 5.5GPT-5.5 攻克AI 数学研究

GPT-5.5 攻克拉姆齐数证明难题 AI 数学研究从复现迈向原创

数学界已经很久没有经历过这样有序而又弥漫着不安的时刻了。

2026 年 4 月 24 日,OpenAI 正式发布 GPT-5.5。在一连串 "编程王座易主" 的新闻标题之下,有一行文字被大多数人匆匆掠过:"一个搭载自定义工具的 GPT-5.5 内部版本,协助研究人员发现了一个关于非对角拉姆齐数的新证明,并在形式化工具 Lean 中获得了验证。"

这不是模型又做对了一道课本上的经典习题,也不是从证明库里复述一段现成材料 —— 而是在组合数论最艰深的核心领域 "拉姆齐数" 研究中,提出了一条人类此前从未想到的论证路径。这个领域素来以 "新结果极稀少、技术难度极高" 著称。而当它通过 Lean 验证的那一刻 —— 这不是审稿人 "我觉得对" 的主观判断,而是一台永不懈怠的逻辑测谎仪给出的终审判决 —— 这条证明在逻辑上就变得无懈可击。

从复现到原创,AI 终于迈出了最关键的那半步。

一、复现与原创之间:一道人类跨越了二十年的墙

拉姆齐数在数论中拥有特殊地位,它回答的是这样一个问题:一个完全图的顶点数需要达到多少,才能保证无论你如何将它的边染成红色或蓝色,其中必然会出现一个全红或全蓝的 k 阶完全子图。时至今日,R (5) 的精确值仍然是数学界未解之谜,人类在这个领域已经挣扎了数十年。

GPT-5.5 这次没有挑战 R (5) 这个终极目标,而是为一个关于非对角拉姆齐数的 "长期渐近事实" 找到了全新的证明路径。这类结果之所以罕见,是因为它无法通过暴力枚举解决,必须找到全新的论证结构才能取得突破。

而这项成果真正的分量,在于它通过了 Lean 的形式化验证。逐行扫描、不留盲区,彻底堵住了人类审稿人可能花费数月都察觉不到的 "微妙漏洞"。这标志着组合数学核心领域打开了一扇新的大门:从 "AI 说它证明了",正式过渡到 "机器能独立验证它确实证明了"。

但如果只看到奖牌的正面,很容易忽略一个同样关键的事实:AI 的每一步推演,脚下踩的始终是人类画好的地图。

不久前,浙江大学王宜平团队凭借自研的 ScaleAutoResearch-Ramsey 系统,将 R (3,17) 的下界从 92 提升至 93,终结了自 1994 年以来长达 31 年的停滞。但这项工作的前提是:拉姆齐数是什么、研究目标是什么、搜索空间在哪里,都已经被人类明确定义好了。"在既定地图上寻找更好的道路",与 "自己绘制一张全新的地图",完全是两个不同的概念。

二、AI 辅助与 AI 主导:一条看不见的红线

菲尔兹奖得主高尔斯那个震动整个数学界的实验,将这个问题暴露得更加彻底。他将加性数论学家内桑森论文中的开放问题交给 GPT-5.5,这些问题基于麻省理工学院博士生拉贾戈帕尔此前证明的指数上界。17 分 05 秒后,模型给出了一个巧妙的构造,将指数级上界直接压缩至最优的二次级。高尔斯本人坦率地表示:他的提示词几乎不包含任何数学输入,自己只充当了 "情绪价值提供者" 的角色。

但高尔斯后来在博客中也点出了被过度炒作掩盖的盲点:AI 之所以能够成功,恰恰是因为内桑森等人已经为这个领域铺好了清晰的地基。它不是从零凭空创造出一个新的数学分支,而是在既有框架内完成了漂亮的拼接与重构。

拉贾戈帕尔那句精准到扎心的评价最能说明问题:"我可能得花一两周才能想出这个东西。" 如果这个成果由人类提出,足以让人骄傲。但有一个前提永远成立:这块领域的门,是人类先挂上路标打开的,AI 只是进去跑了一场百米冲刺。

三、AI 难以逾越的坎:价值判断能力

这个问题比证明本身更深一层:AI 能解难题,但它不理解 "为什么这道题值得解"。

著名数学家陶哲轩年初在一篇关于 "AI 解决了一个 60 年难题" 的报道中泼下的冷水,直指这个命门。有分析文章将这种悖论总结为一句话:"AI 能在几秒内产出博士级别的证明,但它不知道哪些问题值得去做。"

陶哲轩自己给出了一个更精确的说法 ——AI 生成的证明是一种 "无味证明":逻辑上连贯完美,但缺乏方向感,也看不到深层的数学关联。它能在你指定的方向上持续优化,但永远不会抬头问一句:"这条路真的值得走吗?"

文中提到的汤氏几何系统(TongGeometry)做了一个有意思的探索:系统内嵌了一个 "价值模型",能够实时预测每条推理路径的潜力,判定结论是否具有非平凡性,甚至会在意推导过程是否简洁优美。它会问自己:这个几何命题的证明难度是否显著高于构造难度?如果答案是肯定的,它就捕捉到了一丝 "直觉性启发"。但这种价值引导机制,即便从 "自主选题" 的角度来看,也还停留在竞赛几何的 "审美判断" 层面,距离在真正的前沿数学领域自主选择深度研究课题,还有整整一代架构的差距。

四、下一个关口:提出值得思考的问题

回到标题提出的问题:从复现到原创到底有多远?

GPT-5.5 的拉姆齐数证明告诉我们:如果 "原创" 指的是 "在已知框架内构造出人类未曾发现的证明路径",那么 AI 已经跨过了可以被称为 "原创" 的里程碑。但如果 "原创" 还包含 "识别什么值得研究" 和 "自立推理框架",那么 AI 距离真正的自主发现仍差整整一代架构。

这也正是当今数学界感受到的那个逼近的趋势:过去,一个数学家只需提出一个好问题就够了;将来,一个问题不仅要被提出来,还必须难到最先进的大语言模型都无法轻易解决。

而 AI 数学能力的真正下一关,是把 "提出值得思考的问题" 这件事,从人类手中接过一部分。在那之前,高尔斯那句 "我的数学贡献为零" 仍然成立 —— 不是 AI 不需要他,恰恰相反:正因为他一直在那里,为它指路、替它铺地基、帮它判断哪条路是正确的。

对于广大科研工作者和开发者而言,要第一时间体验这些前沿 AI 模型的强大能力,稳定可靠、高性价比的接入渠道至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台,全面覆盖包括最新发布的 ChatGPT 全系列、Claude 全系列、Gemini 全系列、DeepSeek 在内的全球热门 AI 大模型,提供一站式无缝接入服务,无需复杂配置即可快速上手使用。平台同时支持企业级定制化服务,可根据不同科研场景和业务需求量身打造专属解决方案。在成本方面,UseAIAPI 长期为用户提供极具竞争力的优惠政策,最低可达官方价格的 50%,能够大幅降低高强度科研计算、大规模数据分析和学术写作带来的成本压力,让更多科研工作者能够轻松享受到前沿 AI 技术带来的生产力红利。