← 返回 Blog

从"背知识点"到"研究品味"——GeneBench-Pro 这把尺子,把 AI 生物分析能力量出了天花板

6 月 30 日,OpenAI 在预印本平台 bioRxiv 发布题为《GeneBench-Pro:基因组学、数量生物学与转化医学中的多阶段统计推理评估》的研究论文。仅看标题,不少人会认为这只是又一份 AI 模型在垂直领域刷榜的基准测试报告,与 MMLU、GSM8K 等通用测试并无本质区别,只是更换应用领域重复考核。但深入研读便会发现,这套全新的评测体系并非简单的 “打分标尺”,更像一面映照真实能力的镜子 —— 它衡量的不是 AI 模型的现有能力上限,而是 AI 距离真正独立开展科研工作的真实差距。

OpenAIChatGPT

从知识记忆到科研判断 GeneBench-Pro 基准重新定义 AI 生物分析能力边界

6 月 30 日,OpenAI 在预印本平台 bioRxiv 发布题为《GeneBench-Pro:基因组学、数量生物学与转化医学中的多阶段统计推理评估》的研究论文。仅看标题,不少人会认为这只是又一份 AI 模型在垂直领域刷榜的基准测试报告,与 MMLU、GSM8K 等通用测试并无本质区别,只是更换应用领域重复考核。但深入研读便会发现,这套全新的评测体系并非简单的 “打分标尺”,更像一面映照真实能力的镜子 —— 它衡量的不是 AI 模型的现有能力上限,而是 AI 距离真正独立开展科研工作的真实差距。

传统基准侧重知识复述 新评测聚焦科研决策

近年来,AI 模型在生物领域的基准测试成绩提升迅速,基因组问答、蛋白结构预测、文献理解等任务的表现逐年突破。但这类测试大多围绕知识点展开:为模型提供干净规整的基因序列、指向明确的题目、固定的分析流程,模型只需按步骤执行即可完成考核。这种模式如同驾照考试的场地科目,在封闭环境中完成标准动作即可通过,无法还原真实科研场景的复杂性。

真正的科研工作从不是标准化的场地测试,更像在复杂天气下行驶在陌生山路,没有明确的标识指引,也没有预设的完美路径。GeneBench-Pro 的核心设计逻辑,就是将 AI 模型置于真实的科研复杂环境中。该评测包含 129 道试题,覆盖基因组学、数量生物学、转化医学等 10 大领域、21 个子领域,每道题目均不提供标准化的干净数据集,而是加入缺失值、批次效应、录入错误、随机噪声等各类真实科研中普遍存在的数据问题。模型仅能获取简短的实验背景和与后续决策相关的目标问题,其余所有分析环节均需自主判断。

从数据适用性评估到离群值属性判断,从统计方法选择到研究假设调整,所有决策环节都没有标准答案指引,考核的核心不再是 “会不会计算”,而是 “会不会决策”。OpenAI 在论文中反复提及 “research taste(科研品味)” 这一概念,它并非抽象的科研直觉,而是研究者面对不完美数据时形成的综合判断能力 —— 明确现有数据能够支撑哪些研究问题、识别预警信号后是否需要调整模型参数、何时应当及时修正甚至放弃初始研究方案。这种能力无法通过书本知识直接习得,需要长期的科研实践逐步积累。

顶尖模型通过率不足三成 实战能力与预期存在差距

测试结果显示,当前顶尖 AI 模型在真实生物信息分析任务中的表现仍有明显短板。在完整 129 道试题的测试中,GPT-5.6 Sol 在最高推理档位下通过率为 28.7%,切换至 Pro 模式并拉满推理预算后,通过率仅提升至 31.5%;非 GPT 阵营的顶尖模型 Claude Opus 4.8 通过率为 16.0%,GPT-5.5、GPT-5.4 的通过率分别为 12.0%、8.9%。整体来看,全球性能领先的 AI 模型,在真实生物信息分析任务中,正确率仅在三成左右。

单看数值,31.5% 的通过率似乎并非完全无法达标,但结合试题难度便可知这一成绩背后的真实差距。据领域专家估算,人类科研人员完成单道试题需要 20 至 40 小时,单题的人力成本可达数千美元。换言之,这不是简单的知识选择题,而是要求 AI 独立完成达到博士研究级别的完整分析课题。

同时,评测采用二元制评分标准:只有最终结论正确且中间分析步骤严谨规范才算通过,结论错误则直接计零分。这种评分方式看似严苛,却完全贴合真实科研的逻辑:生物数据分析最终服务于下游的科研决策或转化应用,即便中间过程再完善,结论出现偏差,自动化分析的价值便无法落地。

“感知 - 行动” 鸿沟显现 核心短板不在算力在判断

如果仅是通过率偏低,行业尚可通过堆叠算力、扩充训练数据逐步优化。但论文中揭示的结构性问题,更值得整个领域深思。

OpenAI 研究团队发现,模型在测试中反复出现同一种行为模式:能够识别出数据中的异常信号,却无法将这一发现应用到后续的分析决策中。研究团队将这种现象命名为 “notice-act gap”,即 “感知” 与 “行动” 之间的能力断层。

例如在测试场景中,模型能够注意到某样本检测值异常偏高,也能判断其属于批次效应,按照正确的分析逻辑,下一步应当调整统计模型,将批次效应作为协变量进行控制。但实际测试中,模型并不会做出对应的调整,而是继续沿着初始设定的分析路径推进,最终得出错误结论。

这一断层比低通过率更具警示意义。它说明当前 AI 模型的核心瓶颈并非 “知识储备不足” 或 “算力不够”,而是缺少科研工作者的基础素养:根据新证据动态修正研究假设的能力。真正的科研工作者发现异常数据时,会暂停分析、质疑假设、回溯流程、调整方法;而 AI 即便识别到问题,仍会按既定路径继续执行。

构建科研能力度量标尺 行业瓶颈转向判断力提升

GeneBench-Pro 的核心价值,并非刷新了 AI 模型的低分纪录,而是首次将 “科研判断力” 这一抽象能力,转化为可度量、可横向对比的量化指标。传统基准测试衡量的是 “能不能做到”,而 GeneBench-Pro 衡量的是 “该不该这么做”—— 方法是否适配场景、假设是否需要修正、方案是否应当推翻。从 “背诵知识点” 到 “具备科研判断力”,二者的差距不是算力堆叠可以弥补的,而是决策逻辑层面的结构性差异。

据了解,OpenAI 已在 Hugging Face 平台开源 10 道演示试题,另有 50 道试题将交由第三方机构开展独立复测,后续测试结果将进一步验证本次通过率数据的客观性与准确性。

无论最终数据如何,行业已经形成共识:AI 距离独立开展完整科研工作仍有很长的发展路径。当前阶段,AI 可以有效辅助科研人员完成数据清理、方向初探、局部信号排查等基础性工作,但核心的统计方法选择、研究路径调整、最终结论研判等关键环节,仍需人类科研工作者主导。

GeneBench-Pro 这把标尺,丈量的不是 AI 的 “不及格”,而是 AI 在科研应用赛道上需要跨越的核心门槛。这道门槛的核心制约因素,早已不是算力规模的大小,而是综合判断能力的强弱。

对于科研机构、生物医药企业与研发团队而言,灵活调用多类 AI 模型辅助科研工作、提升研发效率,已成为行业发展的必然趋势。目前,UseAIAPI 已同步接入 Gemini、Claude、GPT 系列、DeepSeek 等全球主流热门大模型,覆盖文献梳理、数据分析、代码编写、方案推演等多元科研应用场景,支持一站式便捷调用与企业级定制化接入服务,无需复杂部署即可快速适配各类研发需求。在调用成本方面,平台专属优惠最高可达官方定价的 50%,能够有效降低高强度科研场景下的算力消耗压力,帮助科研团队以更可控的成本,灵活运用前沿 AI 能力赋能研究工作。