← 返回 Blog

专治AI瞎编乱造!这套防幻觉论文工作流开源了,Nature级别的引用溯源太顶了

2026 年 5 月中旬,一个名为 Academic Research Skills(简称 ARS)的开源项目在 GitHub 上迅速走红,上线仅两周便斩获 6.4k 星标。

ClaudeClaude CodeARS

开源反幻觉学术工作流引关注 系统性机制守护科研严谨性

著名数学家陶哲轩在审稿时的一个举动,近期在学术界引发了广泛讨论。他将审稿意见、LaTeX 源文件和论文 PDF 一并提交给 Claude Code,短短十五分钟后,报告中列出的十二个问题有十一个直接得到了最终修改方案,剩下一个也收到了两条可行建议。更令人惊喜的是,AI 在修改过程中还发现了审稿人拼错的一个单词。

当这则消息在社交媒体上疯狂转发时,有网友调侃道:"合理怀疑审稿人也是用 Claude Code 写的审稿意见。" 陶哲轩后来感慨地回复:"如果能重来,我会用 AI 来做第一轮修改。"

但真正在研究圈掀起巨浪的,并不是陶哲轩使用了 AI 这一事实,而是有人将 AI 写论文的流程,从 "靠提示词碰运气" 升级为一套系统化的反幻觉工程。

一、ARS 项目走红 GitHub 打造全流程学术流水线

2026 年 5 月中旬,一个名为 Academic Research Skills(简称 ARS)的开源项目在 GitHub 上迅速走红,上线仅两周便斩获 6.4k 星标。该项目构建了四大核心技能模块,对应论文的研究、撰写、审查和定稿四个关键环节,并将其串联成一条包含 10 个阶段的完整论文流水线。系统支持两行命令开箱即用,完成一篇 15000 字的论文总成本仅需 4 至 6 美元。但这些都只是表象,真正让 ARS 获得广泛认可的,是其深埋在底层的防御机制,它从根本上遏制了 AI 在学术研究中出现不实内容的倾向。

二、破解幻觉引用难题 双重验证机制筑牢学术底线

AI 在学术界应用的第一个死穴,就是难以根除的 "幻觉引用" 问题。

这是 AI 领域的一个深度困境。GPT-5.5 在 AA Omniscience 基准测试中拿下了 57% 的准确率,创下史上最高的事实召回率纪录,但其幻觉率也同时飙升至 86%。它曾在测试中言之凿凿地表示 "Stephen Smith 是一位澳大利亚板球运动员,参加了 80 年代末 90 年代初的四场测试赛"—— 而这位名叫 Stephen Smith 的 AI 研究员根本就不存在。AI 不是有意欺骗,它是真的不懂什么叫 "事实"。它的运行机制是一个词一个词地预测下一个词出现的概率,凭空编造训练数据里没有的东西,其计算成本远比老老实实去检索核对要低得多。

在学术场景中,更具隐蔽性的幻觉才是最致命的:论文题目看着没毛病,作者和发表年份却全错了;DOI 是真实存在的,但引用的内容与原文根本对不上号。这些错误往往要到评审阶段才会被发现,给科研工作者带来极大的麻烦。

针对这一痛点,ARS 在深度研究阶段设计了严格的双重验证机制。每一篇被引用的文献都必须经过两个关卡:首先调用 Semantic Scholar API 确认其真实存在,接着使用莱文斯坦相似度算法进行元数据模糊匹配,只有相似度达到 0.70 以上才能被纳入论文。系统不仅核对题目是否正确,还会将作者、年份、DOI 一起打包进行校对,确保每一行参考文献都有可追溯的数据指纹。ARS 的溯源代理专门负责这项工作,绝不放过任何一条可疑的引用。

三、跨模型对抗协作 弥补单智能体认知盲点

AI 学术应用的第二个死穴,是单智能体难以避免的 "自我盲点"—— 即 "看似合理但缺乏坚实证据支持" 的长期运行风险。

上海交通大学团队提出的 ARIS 系统,从另一个维度给出了解决方案。它采用跨模型对抗协作的创新模式:用 Claude 家族模型作为执行者输出草稿,用 GPT-5.4 家族模型作为独立评审者进行打分并返回结构化修改建议,这个过程反复迭代,直到成果满足预设的学术标准。目前已有研究者使用 ARIS 全流程完成论文并被国际顶级会议录用。此外,ARIS 还配备了三阶段证据声明审计级联、五轮科学写作编辑、可视化 PDF 审查等保障层模块,从证据完整性到渲染页面的视觉一致性层层把关。

而 ARS 则在自家的审查流水线中设计了更为严苛的机制:"魔鬼代言人代理" 会从方法论科学性、学科视角独特性、跨学科应用价值等多个维度进行量化打分 ——80 分以上直接放行,65-79 分建议小修,50-64 分建议大修,50 分以下直接拒稿。v3.0 版本还加入了独创的反谄媚机制:AI 在做出任何让步前,必须先给对方的反驳点打出 1 到 5 分的评分,只有达到 4 分以上才允许调整观点,连续让步将直接触发系统警报。这一设计彻底封死了 AI 在面对学术质疑时 "不战而降" 的迎合空间。

四、多层级完整性检查 构建全流程质量保障体系

除了针对具体问题的专项解决方案,ARS 还设置了两道不可逾越的最终防线。

在流水线的第 2.5 阶段和第 4.5 阶段,系统设置了两个不可跳过的 "完整性检查关"。每个任务都会自动运行一份包含 7 种 AI 常见失败模式的检查清单,涵盖实现错误、幻觉结果、捷径依赖、将 bug 作为洞察重述、方法论捏造、框架锁定、引用幻觉等核心问题。这份清单的制定依据,正是 2026 年发表在《自然》杂志上的 Lu 等人关于 AI 科学研究的标志性论文。

此外,系统采用三层数据隔离架构防止 AI"偷看答案",谷歌 2026 年 PaperOrchestra 系统的方法论 —— 包括 Semantic Scholar API 验证、防泄漏协议、视觉验证、评分轨迹追踪等 —— 也被全面整合进 v3.3 版本的设计中。通过多智能体分流避免单一模型的系统性错误,同时保留人类对最终输出的审查权和主导权。这些工程细节重叠在一起指向一个本质:AI 辅助学术研究,已经从 "试错阶段" 进入了 "可验证阶段"。

五、明确人机角色定位 让 AI 成为科研得力助手

一个有趣的细节是,ARS 的 README 第一句话写道:"AI 是你的副驾驶,而不是飞行员。"ARIS 也秉持着相似的理念:不是为了让智能体更快地写出论文,而是让论文变得更具可测试性和可重复性。这些学术流水线做的根本不是 "替你写论文" 的勾当 —— 它们只是把所有繁琐的脏活累活(查文献、调格式、核对数据、检查逻辑漏洞、审视证据完整性)打包成了一套工程化流程。而人类研究者终于能把时间还给大脑真正该干的活:提出问题、设计方法,以及写下那句至关重要的 "我认为(I argue that)"。

如果说用普通聊天机器人写论文像是在 "开盲盒",你永远不知道这次会不会收到幻觉大礼包,那 ARS 就更像是一条 "学术安检传送带"—— 每篇文献都要过金属探测门,每个论点都要照 X 光机,每一轮审查都配有一个拿着打分卡绝不轻易妥协的 "主编"。

至于那些已经溜进模型训练库、永远无法被 "召回" 的数据,在陶哲轩花十五分钟改完论文后,屏幕上还留着 Claude 的一个意外发现:"您的审稿人写错了一个单词。" 当 AI 的第一份工作不再是讨好人类,而是帮你发现错误时,你终于可以相信,它是真的站在你这边的。

为了让全球科研工作者能够便捷、经济地使用包括 Claude Code 在内的全球顶尖 AI 技术,UseAIAPI提供一站式全球热门 AI 大模型接入服务,全面支持 Gemini、Claude、ChatGPT、DeepSeek 等最新 AI 大模型。平台同时提供专业的企业级定制化服务,为不同规模的科研机构和企业量身打造稳定、安全的 AI 解决方案,确保用户能够无忧接入、高效使用。

在价格方面,UseAIAPI 推出了极具竞争力的普惠政策,所有服务最低可享官方价格的 5 折优惠,大幅降低了高强度内容生成和大规模科研应用的成本门槛,让每一位科研工作者都能以更经济的方式,享受到 AI 技术带来的生产力革命,专注于真正有价值的学术创新。