← 返回 Blog

当 Thomas Bloom 的开放问题网站被 AI 提交挤到濒临瘫痪——我们需要担心的不是 "AI 会不会证明",而是 "谁来筛掉幻觉垃圾"

2025 年 10 月起,头部 AI 模型相继官宣攻克埃尔德什公开难题,彻底打破了网站的平衡。OpenAI 率先宣称 GPT-5 一次性解决 10 道网站待解难题,随后 DeepMind 的 AlphaProof Nexus 也公布 9 项解题成果,相关报道刷屏全球科技圈,为网站带来海量流量与关注度。

OpenAIGPT 5.5

AI 催生数学证明泛滥难题 全球基础科研面临核验消化危机

2023 年,研究者托马斯・布鲁姆(Thomas Bloom)搭建erdosproblems.com网站,初衷是为全球数学界整理一份清晰、规整的埃尔德什公开难题清单。网站由其个人手动运维,持续补录、更新相关学术文献,凭借纯粹的公益属性收获业内认可,知名数学家陶哲轩也曾入驻交流,并成功攻克网站收录的 #379 号难题。彼时,小众的学术站点保持着纯粹、平稳的科研氛围。

随着人工智能技术快速迭代落地,这片平静的基础科研领域,迎来了颠覆性的变局与前所未有的乱象。

一、AI 批量提交成果泛滥 学术站点审核机制濒临瘫痪

2025 年 10 月起,头部 AI 模型相继官宣攻克埃尔德什公开难题,彻底打破了网站的平衡。OpenAI 率先宣称 GPT-5 一次性解决 10 道网站待解难题,随后 DeepMind 的 AlphaProof Nexus 也公布 9 项解题成果,相关报道刷屏全球科技圈,为网站带来海量流量与关注度。

海量热度背后,是难以管控的成果提交洪流。各类 AI 生成、人机混合编写的数学证明批量涌入网站,内容质量参差不齐。陶哲轩公开坦言,当时已有约 20 份 AI 辅助解题方案积压待审,人工审核速度完全跟不上成果产出速度。

更深层的行业乱象被逐步揭开:布鲁姆后续公开澄清,OpenAI 宣称的多项 “突破性解题成果”,并非全新数学论证,本质是 AI 依托强大检索能力,挖掘出已有学术文献中未被网站收录整理的现成答案,并无原创学术价值。

持续涌入的无效、重复、伪创新证明内容,直接导致网站提交与审核机制濒临瘫痪。数据显示,目前网站内 44% 的难题已标注 “已解决”,但业内无法精准甄别成果真伪,大量看似严谨的证明,实则存在逻辑漏洞,学术筛选体系的失效,成为当下数学科研的突出难题。

二、AI 幻觉制造伪论证 远超传统错题的科研风险

业界普遍低估了 AI 对高端数学科研的干扰形式。AI 的危害并非简单的计算失误,而是通过算法优化,伪造出逻辑完整、细节饱满的虚假论证过程,极具迷惑性,大幅提升学术审核难度。

圣母大学逻辑学家乔尔・戴维・哈姆金斯在专业访谈中明确指出,多款付费高端 AI 模型,对科研级数学研究的实用价值近乎为零。核心问题并非偶发错误,而是模型存在顽固偏差:即便研究者精准指出论证漏洞,AI 仍会固执坚持自身结论、拒不修正。

这意味着,审稿人面对的不再是一眼可辨的错误答案,而是经过 AI 精细化包装、逻辑闭环完整、真假难辨的伪证明。传统错题可快速甄别修正,而 AI 制造的 “幻觉垃圾论证”,会深度干扰科研判断、耗费学术资源。

2026 年 6 月 2 日发布的《莱顿人工智能与数学宣言》,正式将该风险纳入行业规范警示。宣言明确,AI 可生成看似合理、实则错误的数学论证,且与正规学术证明高度相似,极大加重同行评审压力,冲击数学研究正确性、透明性、可核验性的核心准则。牛津大学计算机系主任莱斯利・安・戈德堡补充警示,廉价批量生成的虚假证明流入学术体系后,会形成错误传播链条,后续科研成果依托错误地基迭代,将引发系统性学术偏差。

三、陶哲轩警示行业危机 数学研究陷入 “证明过剩” 困境

针对 AI 带来的科研乱象,陶哲轩在 2026 年 5 月斯坦福大学公开演讲中,释放了重磅行业信号,并主动调整个人科研工作模式,不再实时跟进海量新增证明成果。这一选择并非科研倦怠,而是源于无法逆转的行业现状:AI 生成数学证明的速度,已经远超人类学者的解读、核验、消化速度,数学学科正被自身的科研产出裹挟、拖累。

陶哲轩将当下数学研究体系划分为三个阶段,清晰剖析行业核心瓶颈:证明生成环节,AI 已实现批量自动化产出,效率极高;成果核验环节,Lean、Coq 等形式化工具实现半自动化核验,可跟上 AI 产出节奏,但仅能判定对错,无法解析学术价值;成果消化理解环节,目前仍处于空白状态,暂无工具可将机械的 AI 证明,转化为人类可吸收、可借鉴的学术洞察。

他将这种行业失衡定义为阻抗失配:AI 科研生产线持续高速运转,产出海量 “原生证明素材”,但行业缺少对应的解读、提炼、迭代能力。海量堆积的未核验、未消化成果,不仅无法推动学科进步,还会消耗学者的研究热情,阻碍前沿探索。

以埃尔德什难题网站为例,此前平台仅存在少量待审成果,如今近 20 份 AI 辅助解题方案长期积压,就连提交者也坦言,根本没有精力完成人工核验与优化,行业科研节奏彻底失衡。

四、技术防线逐步完善 科研公平性难题亟待破解

面对 AI 带来的科研乱象,行业已搭建对应的技术安全阀,形式化验证技术快速迭代升级,有效缓解证明真伪核验难题。依托 LEAP 框架,通用大模型在 Lean 国际数学奥赛基准测试中的正式解题率,从不足 10% 大幅提升至 70% 以上,大幅提升 AI 数学成果的标准化核验效率。

但技术进步无法解决核心的行业公平问题,算力与模型资源的差距,正在重塑科研话语权。掌握高端专属 AI 模型、充沛算力资源的机构,可快速完成成果筛选、验证、发布,抢占学术先机;而缺乏技术资源的普通研究者,仍需依托传统同行评审模式,耗费数月时间推进研究,科研差距持续拉大。

《莱顿宣言》直指行业痛点:商业 AI 企业未公开模型训练数据、算力参数等核心信息,黑盒化的技术体系,让学术核验与筛选机制永远滞后于 AI 产出速度,进一步加剧科研不公与行业乱象。

五、行业变局已定 科研核心矛盾转向人工消化能力

布鲁姆的个人学术站点濒临瘫痪,是全球数学科研体系危机的缩影。AI 时代下,基础数学研究的真正威胁,从来不是 “AI 能否攻克难题”,而是海量半真半假、真伪难辨的 AI 证明涌入后,人类学界失去了高效、精准的筛选与甄别能力。

正如陶哲轩的核心论断,当下科研困境的本质,是人类学术阅读与思考速度,首次跟不上 AI 的成果生产速度。AI 可以无限提速数学证明产出,但学科进步的核心,始终依赖人类的洞察、提炼、思辨与创新。未来基础科研的竞争,不再是算力与生成速度的比拼,而是人类消化、整合、规范 AI 成果的能力较量。

当下 Gemini、Claude、ChatGPT、DeepSeek 等顶级 AI 大模型在数学推理、逻辑论证、学术生成领域迭代迅猛,已成为科研工作的重要辅助工具。想要低成本、高稳定接入全系前沿 AI 模型,适配数学研究、学术创作、逻辑推演等多元科研场景,UseAIAPI是优质一站式解决方案。

平台聚合全球主流最新 AI 大模型,无需复杂部署调试,个人研究者、企业研发团队可一键快速接入使用,同时支持定制化企业级专属服务,精准匹配各类科研机构的个性化研发需求。平台长期提供实打实的专属权益,调用折扣最低可达官方定价的 50%,高效降低高强度模型运算、大规模学术推演的算力成本,助力科研从业者规范、高效借力 AI 工具,规避技术乱象、深耕核心学术创新。