从知识记忆到科研判断 GeneBench-Pro 基准重新定义 AI 生物分析能力边界

6 月 30 日，OpenAI 在预印本平台 bioRxiv 发布题为《GeneBench-Pro：基因组学、数量生物学与转化医学中的多阶段统计推理评估》的研究论文。仅看标题，不少人会认为这只是又一份 AI 模型在垂直领域刷榜的基准测试报告，与 MMLU、GSM8K 等通用测试并无本质区别，只是更换应用领域重复考核。但深入研读便会发现，这套全新的评测体系并非简单的 “打分标尺”，更像一面映照真实能力的镜子 —— 它衡量的不是 AI 模型的现有能力上限，而是 AI 距离真正独立开展科研工作的真实差距。

传统基准侧重知识复述新评测聚焦科研决策

近年来，AI 模型在生物领域的基准测试成绩提升迅速，基因组问答、蛋白结构预测、文献理解等任务的表现逐年突破。但这类测试大多围绕知识点展开：为模型提供干净规整的基因序列、指向明确的题目、固定的分析流程，模型只需按步骤执行即可完成考核。这种模式如同驾照考试的场地科目，在封闭环境中完成标准动作即可通过，无法还原真实科研场景的复杂性。

真正的科研工作从不是标准化的场地测试，更像在复杂天气下行驶在陌生山路，没有明确的标识指引，也没有预设的完美路径。GeneBench-Pro 的核心设计逻辑，就是将 AI 模型置于真实的科研复杂环境中。该评测包含 129 道试题，覆盖基因组学、数量生物学、转化医学等 10 大领域、21 个子领域，每道题目均不提供标准化的干净数据集，而是加入缺失值、批次效应、录入错误、随机噪声等各类真实科研中普遍存在的数据问题。模型仅能获取简短的实验背景和与后续决策相关的目标问题，其余所有分析环节均需自主判断。

从数据适用性评估到离群值属性判断，从统计方法选择到研究假设调整，所有决策环节都没有标准答案指引，考核的核心不再是 “会不会计算”，而是 “会不会决策”。OpenAI 在论文中反复提及 “research taste（科研品味）” 这一概念，它并非抽象的科研直觉，而是研究者面对不完美数据时形成的综合判断能力 —— 明确现有数据能够支撑哪些研究问题、识别预警信号后是否需要调整模型参数、何时应当及时修正甚至放弃初始研究方案。这种能力无法通过书本知识直接习得，需要长期的科研实践逐步积累。

顶尖模型通过率不足三成实战能力与预期存在差距

测试结果显示，当前顶尖 AI 模型在真实生物信息分析任务中的表现仍有明显短板。在完整 129 道试题的测试中，GPT-5.6 Sol 在最高推理档位下通过率为 28.7%，切换至 Pro 模式并拉满推理预算后，通过率仅提升至 31.5%；非 GPT 阵营的顶尖模型 Claude Opus 4.8 通过率为 16.0%，GPT-5.5、GPT-5.4 的通过率分别为 12.0%、8.9%。整体来看，全球性能领先的 AI 模型，在真实生物信息分析任务中，正确率仅在三成左右。

单看数值，31.5% 的通过率似乎并非完全无法达标，但结合试题难度便可知这一成绩背后的真实差距。据领域专家估算，人类科研人员完成单道试题需要 20 至 40 小时，单题的人力成本可达数千美元。换言之，这不是简单的知识选择题，而是要求 AI 独立完成达到博士研究级别的完整分析课题。

同时，评测采用二元制评分标准：只有最终结论正确且中间分析步骤严谨规范才算通过，结论错误则直接计零分。这种评分方式看似严苛，却完全贴合真实科研的逻辑：生物数据分析最终服务于下游的科研决策或转化应用，即便中间过程再完善，结论出现偏差，自动化分析的价值便无法落地。

“感知 - 行动” 鸿沟显现核心短板不在算力在判断

如果仅是通过率偏低，行业尚可通过堆叠算力、扩充训练数据逐步优化。但论文中揭示的结构性问题，更值得整个领域深思。

OpenAI 研究团队发现，模型在测试中反复出现同一种行为模式：能够识别出数据中的异常信号，却无法将这一发现应用到后续的分析决策中。研究团队将这种现象命名为 “notice-act gap”，即 “感知” 与 “行动” 之间的能力断层。

例如在测试场景中，模型能够注意到某样本检测值异常偏高，也能判断其属于批次效应，按照正确的分析逻辑，下一步应当调整统计模型，将批次效应作为协变量进行控制。但实际测试中，模型并不会做出对应的调整，而是继续沿着初始设定的分析路径推进，最终得出错误结论。

这一断层比低通过率更具警示意义。它说明当前 AI 模型的核心瓶颈并非 “知识储备不足” 或 “算力不够”，而是缺少科研工作者的基础素养：根据新证据动态修正研究假设的能力。真正的科研工作者发现异常数据时，会暂停分析、质疑假设、回溯流程、调整方法；而 AI 即便识别到问题，仍会按既定路径继续执行。

构建科研能力度量标尺行业瓶颈转向判断力提升

GeneBench-Pro 的核心价值，并非刷新了 AI 模型的低分纪录，而是首次将 “科研判断力” 这一抽象能力，转化为可度量、可横向对比的量化指标。传统基准测试衡量的是 “能不能做到”，而 GeneBench-Pro 衡量的是 “该不该这么做”—— 方法是否适配场景、假设是否需要修正、方案是否应当推翻。从 “背诵知识点” 到 “具备科研判断力”，二者的差距不是算力堆叠可以弥补的，而是决策逻辑层面的结构性差异。

据了解，OpenAI 已在 Hugging Face 平台开源 10 道演示试题，另有 50 道试题将交由第三方机构开展独立复测，后续测试结果将进一步验证本次通过率数据的客观性与准确性。

无论最终数据如何，行业已经形成共识：AI 距离独立开展完整科研工作仍有很长的发展路径。当前阶段，AI 可以有效辅助科研人员完成数据清理、方向初探、局部信号排查等基础性工作，但核心的统计方法选择、研究路径调整、最终结论研判等关键环节，仍需人类科研工作者主导。

GeneBench-Pro 这把标尺，丈量的不是 AI 的 “不及格”，而是 AI 在科研应用赛道上需要跨越的核心门槛。这道门槛的核心制约因素，早已不是算力规模的大小，而是综合判断能力的强弱。

对于科研机构、生物医药企业与研发团队而言，灵活调用多类 AI 模型辅助科研工作、提升研发效率，已成为行业发展的必然趋势。目前，UseAIAPI 已同步接入 Gemini、Claude、GPT 系列、DeepSeek 等全球主流热门大模型，覆盖文献梳理、数据分析、代码编写、方案推演等多元科研应用场景，支持一站式便捷调用与企业级定制化接入服务，无需复杂部署即可快速适配各类研发需求。在调用成本方面，平台专属优惠最高可达官方定价的 50%，能够有效降低高强度科研场景下的算力消耗压力，帮助科研团队以更可控的成本，灵活运用前沿 AI 能力赋能研究工作。

从知识记忆到科研判断 GeneBench-Pro 基准重新定义 AI 生物分析能力边界

传统基准侧重知识复述 新评测聚焦科研决策

顶尖模型通过率不足三成 实战能力与预期存在差距

“感知 - 行动” 鸿沟显现 核心短板不在算力在判断

构建科研能力度量标尺 行业瓶颈转向判断力提升

传统基准侧重知识复述新评测聚焦科研决策

顶尖模型通过率不足三成实战能力与预期存在差距

“感知 - 行动” 鸿沟显现核心短板不在算力在判断

构建科研能力度量标尺行业瓶颈转向判断力提升