GeneBench-Pro 基准测试揭示 AI 科研短板顶尖模型脏数据场景通过率不足三成

6 月 30 日，OpenAI 在预印本平台 bioRxiv 发布题为《GeneBench-Pro：基因组学、数量生物学与转化医学中的多阶段统计推理评估》的研究论文。该研究搭建了全新的科研能力评测基准 GeneBench-Pro，通过 129 道贴合真实科研场景的试题，对当前主流顶尖 AI 模型的生物信息分析实战能力开展了系统测试，清晰勾勒出当前 AI 在科研应用领域的真实能力边界。

顶尖模型通过率不足三成实战表现远低于常规基准

本次测试结果显示，即便是当前性能顶尖的 AI 模型，在真实科研任务中的表现仍存在明显短板。在完整 129 道试题的测试中，OpenAI 旗下 GPT-5.6 Sol 在最高推理档位下通过率为 28.7%；切换至 Pro 模式并拉满推理预算后，通过率仅勉强达到 31.5%。这意味着，全球顶尖的 AI 模型面对真实的生物信息分析任务，每十道题中仅能答对三道左右。

其余模型的表现差距更为明显：GPT-5.5 通过率为 12.0%，GPT-5.4 为 8.9%；非 GPT 阵营中，Claude Opus 4.8 通过率为 16.0%，Gemini 3.5 Flash 仅为 8.1%。整体来看，AI 模型在科研实战场景中的综合表现，远低于其在常规基准测试中的成绩水平。

区别于传统评测：以 “脏数据” 还原真实科研决策场景

GeneBench-Pro 与传统 AI 基准测试的核心差异，在于考核的核心从 “知识计算能力” 转向了 “科研决策能力”。

传统基准测试的逻辑相对直接：为模型提供题干明确、数据干净的题目，验证其是否能计算出正确答案，核心考察的是模型的知识储备与运算能力。而 GeneBench-Pro 采用的是经过刻意处理的 “脏数据集”—— 包含缺失值、批次效应、录入错误、噪声干扰等多种真实科研中常见的数据问题。模型面对的不是一道有明确答案的数学题，而是一团需要梳理的原始数据，需要自主完成一系列判断：这份数据集能否支撑对应研究问题？离群值属于真实生物信号还是实验误差？应当选择哪种统计分析方法？前期判断一旦出现偏差，后续整条分析路径都会偏离正确方向。

据介绍，每道试题都对应真实科研场景中的一项下游决策，例如判断某个基因突变是否具备临床试验价值。评分采用二元制标准：只有最终结论正确且中间分析步骤严谨完整才算通过，结论错误则直接计零分。OpenAI 在论文中表示，这种设计旨在 “还原真实世界中计算生物学家面临的任务复杂度”。

试题的难度设置也贴近真实科研工作。据领域评审专家估算，人类专家完成单道试题需要 20 至 40 小时，单题的人工成本可达数千美元。换言之，这不是简单的知识选择题，而是要求 AI 独立完成达到博士研究级别的完整分析课题。

深层能力短板凸显 “感知 - 行动” 断层制约科研应用

如果仅看通过率数值，尚可通过提升模型参数、增加训练数据逐步优化。但论文中揭示的一项结构性问题，更值得行业关注。

OpenAI 研究人员发现，模型在测试中呈现出一种固定的行为模式：能够识别出数据中的异常信号，但无法将这一发现应用到后续的分析决策中。研究人员将这种现象命名为 “notice-act gap”（感知 - 行动鸿沟）。

比如在测试中，模型可能注意到某份样本的检测值异常偏高，也能判断出这属于批次效应 —— 从分析逻辑上，下一步应当调整统计模型，将批次效应作为协变量进行控制。但模型并不会做出对应调整，而是沿着最初设定的分析路径继续推进，最终得出错误结论。

这一现象比低通过率更具警示意义。它说明当前 AI 模型的核心问题并非 “算力不足、知识不够”，而是缺少科研工作者最基础的核心素养：根据新证据动态修正研究假设的能力。真正的科研工作者遇到异常数据时，会暂停、质疑、回溯、调整方法；而 AI 即便识别到问题，仍会按原有路径继续执行。

直指 “科研品味” 核心能力提升无法仅靠参数堆叠

OpenAI 在论文及相关发布材料中反复提及一个概念：research taste（科研品味）。这一概念指的是研究者面对杂乱原始数据时，做出一系列关键判断的能力 —— 哪些问题可以通过现有数据解答、哪些无法实现；何时应当坚持初始假设、何时应当及时调整方向；早期的预警信号对应着哪些潜在风险。这种能力无法通过教科书直接习得，需要在大量科研实战中逐步积累形成。

GeneBench-Pro 的核心设计目标，正是考核这种难以量化的综合判断能力。它不考察模型 “会不会使用某款统计工具”，而是验证在数据不完美、信息不完整、路径不唯一的真实场景下，模型能否做出连贯正确的判断，最终得出能够支撑决策的可靠结论。

为保障测试的严谨性，129 道试题中有 82 道经过了领域外部专家评审，评审团队涵盖研究生、博士后、产业界科学家与高校教授。评审过程中，研究团队发现部分试题无法从数据中推导出唯一标准答案，便直接对题设进行了调整，其严谨程度已超过绝大多数 AI 基准测试的标准。

科研 AI 赛道竞速端到端落地仍有较长路径

GeneBench-Pro 发布的时间节点颇具行业意义。同日，Anthropic 推出了 Claude Science 科研智能体工作台，两家行业巨头在 AI 科研应用赛道同步加码，但二者的技术路线各有侧重：Anthropic 的思路是将现有模型集成到工作台中，通过工具链与标准化流程弥补模型的可靠性不足；OpenAI 则选择先定义 “科研任务完成的标准”，掌握评测体系的话语权。

目前行业的共识在于，AI 赋能科研的发展瓶颈，已不再是模型基础能力不足，而是距离真正的端到端科研应用仍有明显差距，单纯堆叠算力与数据的发展路径，在科研场景中已难以持续突破。

据了解，OpenAI 已在相关开源平台上线 10 道演示试题，另有 50 道试题将交由第三方机构开展独立复测，后续第三方测试结果将进一步验证本次通过率数据的准确性。

无论最终数据如何，行业已形成清晰的判断：AI 距离 “独立开展科研工作” 仍有很长的路要走。当前阶段，AI 可以辅助科研人员完成数据清理、方向初探、局部信号排查等基础性工作，但关键的统计方法选择、研究路径调整、最终结论研判等核心环节，仍需要人类科研工作者主导。129 道基于脏数据的试题，测出的不只是一个通过率数字，更是当前 AI 科研能力的真实边界。边界的另一端，是人类科研工作者数十年积累形成的科研判断力与专业素养，AI 想要实现真正的跨越，仅靠更大的模型、更多的数据远远不够。

对于科研机构与研发团队而言，灵活调用多类 AI 模型辅助科研工作、提升研发效率，已成为行业共识。目前，UseAIAPI 已同步接入 Gemini、Claude、GPT 系列、DeepSeek 等全球主流热门大模型，覆盖文献梳理、数据分析、代码编写、方案推演等多元科研应用场景，支持一站式便捷调用与企业级定制化接入服务，无需复杂部署即可快速适配各类研发需求。在调用成本方面，平台专属优惠最高可达官方定价的 50%，能够有效降低高强度科研场景下的算力消耗压力，帮助科研团队以更可控的成本，灵活运用前沿 AI 能力赋能研究工作。

GeneBench-Pro 基准测试揭示 AI 科研短板 顶尖模型脏数据场景通过率不足三成

顶尖模型通过率不足三成 实战表现远低于常规基准