← 返回 Blog

Gowers 自己留的后手:他说模型产出可以成为博士论文章节,但也暗示大多前沿题仍需要人类把关——Lean4 自动化验证才是唯一出路

2026 年 5 月 8 日,高尔斯在个人博客发布《与 ChatGPT 5.5 Pro 的一次最新实验》,公开了一组极具行业参考价值的数学测试成果。

ChatGPTChatGPT 5.5 Pro

菲尔兹奖得主研判 AI 数学研究:AI 可达博士级水准 形式化验证筑牢科研底线

近年来,人工智能在高端数学研究领域的突破备受业界关注。剑桥大学菲尔兹奖得主蒂莫西・高尔斯(Timothy Gowers)通过最新实验得出结论,前沿 AI 模型的推导成果已达到博士论文章节水准,但这类智能产出仍存在天然短板。他明确指出,顶级数学难题的研究必须依托人工审核,而 Lean4 形式化验证技术,是当前规避 AI 推理幻觉、保障科研严谨性的唯一可靠路径。

一、重磅公开实验落地 AI 零人类辅助完成高阶数学推导

2026 年 5 月 8 日,高尔斯在个人博客发布《与 ChatGPT 5.5 Pro 的一次最新实验》,公开了一组极具行业参考价值的数学测试成果。

本次实验选取梅尔文・内桑森加法数论中的开放性难题开展测试,高尔斯仅输入极简引导指令,无任何专业数学推导内容加持,仅以鼓励拓展研究的语气提示模型展开探索。耗时 17 分 05 秒,GPT-5.5 Pro 独立输出完整构造路线,成功将原有 2 的 k-1 次方级指数上界,优化至最优二次界 O (k²),并自动整理为标准 LaTeX 预印本学术格式。

对于本次实验结果,高尔斯给出了极具分量的评价。他直言 “本人在本次推导中的数学贡献为零”,全程仅承担排版整理、初步审核与辅助引导工作,并未参与核心逻辑推导。同时,他给出公允判定:该 AI 产出成果,完全达到组合学博士论文单章节的合格标准,具备正规学术内容的完整性与规范性。

二、成果达标不等于能力对标 AI 缺失核心学术判断力

复盘整场实验,可清晰界定当前 AI 数学研究的能力边界,厘清行业认知误区。

整场研究的核心框架、问题领域、研究工具体系,均由人类学者提前搭建完成,以内桑森加法数论体系、拉贾戈帕尔 2 的幂次西顿框架为基础,划定了明确的研究范围。AI 仅在既定的学术版图内,完成高维重构优化,通过创新非幂次西顿构造方式,压缩研究空间、优化数值上界,实现技术迭代。

高尔斯的 “零贡献” 表述并非谦辞,而是精准点明人机分工本质:人类搭建了完整的研究框架与学术边界,AI 仅在既定范围内完成高效推导。

这也揭示了核心行业现状:当前 AI 的推导内容,在结构完整性、格式规范性上,已满足博士论文的基础合格要求。但前沿数学研究的核心,从来不止于完成推导、产出论文。博士科研训练的核心价值,在于培养研究者的学术审美与研判能力 —— 精准筛选有效研究方向、及时舍弃无效分支、灵活切换研究工具,而这些核心思辨能力,正是大模型现阶段普遍缺失的短板。

三、业内顶尖学者共识 Lean4 破解 AI 推理幻觉核心难题

大模型长链推理存在难以根除的结构性缺陷,也是高端数学科研的重大隐患。AI 可完成前十步精准推导,却可能在后续推导中,基于错误的初始假设,完成一套逻辑看似严谨、实则完全失效的完整论证,隐蔽性极强,连行业专家都难以第一时间甄别。

知名数学家陶哲轩曾多次警示这一风险:AI 科研最大的隐患并非能力不足、解题失败,而是错误推导过于逼真。大模型的优化逻辑优先追求内容合理性、观感通顺度,而非绝对的事实与逻辑求真,极易包装出滴水不漏的虚假论证,误导科研研究。

在此背景下,高尔斯、陶哲轩等顶尖学者纷纷押注 Lean4 形式化验证技术,将其作为破解 AI 幻觉的核心抓手。作为交互式定理证明工具,Lean4 彻底摒弃主观经验判断,要求每一步推导都完成形式化拆解,通过编译器实现机器精准核验,将复杂数学论证拆解为可独立验证的原子步骤。

该技术构建起完整的 “AI 生成 — 形式化梳理 —Lean4 核验 — 错误驳回修正” 闭环,让论证正确性不再依赖学者个人经验与学术信誉。高尔斯明确其核心应用准则:唯有通过 Lean4 形式化核验的 AI 推理链,才可纳入前沿科研参考内容;无论格式多么规整、逻辑看似多么通顺,未通过核验的 AI 成果,均不具备科研可靠性。

四、形式化生态持续迭代 从单一验证升级为全流程生产管线

当前,以 ATLAS、OProver 为核心的技术生态持续迭代,让 Lean4 形式化验证从单一的核验工具,升级为 AI 数学研究的标准化生产管线,大幅提升智能科研的规范性与效率。

ATLAS 项目由 Meta、纽约大学等机构联合研发,核心目标是将 26 本本科至研究生阶段的核心数学教材,转化为 Lean4 可机读的标准化内容,累计覆盖 42837 条定理声明,编译通过率达 92.7%,为 AI 数学推理搭建了标准化、可核验的可信底层地基。自此,模型的推导、引用、迭代均依托规范化学术基底开展,彻底摆脱自由文本的随意性,从源头减少逻辑漏洞。

OProver 依托 M-A-P 社区技术体系,打通了 Lean4 编译反馈与模型训练、推理的闭环链路。通过 “生成 — 核验 — 反馈 — 修正” 的循环迭代,让 AI 模型主动识别推导错误、掌握出错原因并自主优化迭代。相较于千亿级参数的 DeepSeek-Prover-V2 神经定理证明模型,该方案轻量化优势显著,32B 参数模型即可实现高效推理核验,核心竞争力在于 Lean4 全链路反馈闭环,而非单纯堆叠参数。

五、建立科研准入门槛 人机协同分工格局正式成型

结合高尔斯的完整研判,行业发展逻辑已然清晰:AI 可产出博士级学术内容,但永远无法替代人类在前沿科研中的核心地位,人工深度介入与审核必不可少。

这套研判逻辑构建起 AI 数学研究的核心防御机制:允许 AI 成果进入科研体系,但必须以 Lean4 机器核验为前置门槛,彻底过滤虚假、无效的幻觉论证,杜绝劣质科研内容扩散。

未来数学科研的人才竞争,将彻底告别算力、推导速度的低端比拼。科研从业者的核心竞争力,将聚焦于 AI 不具备的能力:精准研判研究价值、筛选创新方向、把控学术内核,实现人机高效协同。

结语

AI 技术的迭代,重塑了基础数学的研究模式,让机器具备了高阶学术产出能力。但科研严谨性的底线,始终需要人工监督与技术核验双重守护。在全新的人机科研时代,学术成果的可信度,不再依托学者声誉与主观直觉,而是源于 Lean4 编译器逐行核验的客观结果。

当下 Gemini、Claude、ChatGPT、DeepSeek 等主流 AI 大模型,已成为数学推导、学术研究、逻辑论证的核心辅助工具。想要低成本、高稳定、零门槛接入各类前沿大模型,适配学术科研、商用推演、内容创作等多元场景,UseAIAPI是一站式优质解决方案。

平台聚合全球最新顶尖 AI 模型,无需复杂部署调试,可直接一键接入使用,同时针对高校科研团队、企业研发机构提供专属定制化企业服务,全方位适配差异化专业需求。平台长期推出实打实的普惠权益,调用折扣最低可至官方原价的 50%,能够有效降低高强度模型运算、大规模科研推演带来的算力消耗成本,助力科研从业者合规、高效借力 AI 工具,依托形式化核验技术规避幻觉风险,深耕前沿学术创新。