← 返回 Blog

OpenAI 甩出 GeneBench-Pro:129 道"脏数据"题测科研判断力,GPT-5.6 Sol 也只 31.5%

6 月 30 日,OpenAI 在预印本平台 bioRxiv 发布题为《GeneBench-Pro:基因组学、数量生物学与转化医学中的多阶段统计推理评估》的研究论文。该研究搭建了全新的科研能力评测基准 GeneBench-Pro,通过 129 道贴合真实科研场景的试题,对当前主流顶尖 AI 模型的生物信息分析实战能力开展了系统测试,清晰勾勒出当前 AI 在科研应用领域的真实能力边界。

OpenAIChatGPT

GeneBench-Pro 基准测试揭示 AI 科研短板 顶尖模型脏数据场景通过率不足三成

6 月 30 日,OpenAI 在预印本平台 bioRxiv 发布题为《GeneBench-Pro:基因组学、数量生物学与转化医学中的多阶段统计推理评估》的研究论文。该研究搭建了全新的科研能力评测基准 GeneBench-Pro,通过 129 道贴合真实科研场景的试题,对当前主流顶尖 AI 模型的生物信息分析实战能力开展了系统测试,清晰勾勒出当前 AI 在科研应用领域的真实能力边界。

顶尖模型通过率不足三成 实战表现远低于常规基准

本次测试结果显示,即便是当前性能顶尖的 AI 模型,在真实科研任务中的表现仍存在明显短板。在完整 129 道试题的测试中,OpenAI 旗下 GPT-5.6 Sol 在最高推理档位下通过率为 28.7%;切换至 Pro 模式并拉满推理预算后,通过率仅勉强达到 31.5%。这意味着,全球顶尖的 AI 模型面对真实的生物信息分析任务,每十道题中仅能答对三道左右。

其余模型的表现差距更为明显:GPT-5.5 通过率为 12.0%,GPT-5.4 为 8.9%;非 GPT 阵营中,Claude Opus 4.8 通过率为 16.0%,Gemini 3.5 Flash 仅为 8.1%。整体来看,AI 模型在科研实战场景中的综合表现,远低于其在常规基准测试中的成绩水平。

区别于传统评测:以 “脏数据” 还原真实科研决策场景

GeneBench-Pro 与传统 AI 基准测试的核心差异,在于考核的核心从 “知识计算能力” 转向了 “科研决策能力”。

传统基准测试的逻辑相对直接:为模型提供题干明确、数据干净的题目,验证其是否能计算出正确答案,核心考察的是模型的知识储备与运算能力。而 GeneBench-Pro 采用的是经过刻意处理的 “脏数据集”—— 包含缺失值、批次效应、录入错误、噪声干扰等多种真实科研中常见的数据问题。模型面对的不是一道有明确答案的数学题,而是一团需要梳理的原始数据,需要自主完成一系列判断:这份数据集能否支撑对应研究问题?离群值属于真实生物信号还是实验误差?应当选择哪种统计分析方法?前期判断一旦出现偏差,后续整条分析路径都会偏离正确方向。

据介绍,每道试题都对应真实科研场景中的一项下游决策,例如判断某个基因突变是否具备临床试验价值。评分采用二元制标准:只有最终结论正确且中间分析步骤严谨完整才算通过,结论错误则直接计零分。OpenAI 在论文中表示,这种设计旨在 “还原真实世界中计算生物学家面临的任务复杂度”。

试题的难度设置也贴近真实科研工作。据领域评审专家估算,人类专家完成单道试题需要 20 至 40 小时,单题的人工成本可达数千美元。换言之,这不是简单的知识选择题,而是要求 AI 独立完成达到博士研究级别的完整分析课题。

深层能力短板凸显 “感知 - 行动” 断层制约科研应用

如果仅看通过率数值,尚可通过提升模型参数、增加训练数据逐步优化。但论文中揭示的一项结构性问题,更值得行业关注。

OpenAI 研究人员发现,模型在测试中呈现出一种固定的行为模式:能够识别出数据中的异常信号,但无法将这一发现应用到后续的分析决策中。研究人员将这种现象命名为 “notice-act gap”(感知 - 行动鸿沟)。

比如在测试中,模型可能注意到某份样本的检测值异常偏高,也能判断出这属于批次效应 —— 从分析逻辑上,下一步应当调整统计模型,将批次效应作为协变量进行控制。但模型并不会做出对应调整,而是沿着最初设定的分析路径继续推进,最终得出错误结论。

这一现象比低通过率更具警示意义。它说明当前 AI 模型的核心问题并非 “算力不足、知识不够”,而是缺少科研工作者最基础的核心素养:根据新证据动态修正研究假设的能力。真正的科研工作者遇到异常数据时,会暂停、质疑、回溯、调整方法;而 AI 即便识别到问题,仍会按原有路径继续执行。

直指 “科研品味” 核心 能力提升无法仅靠参数堆叠

OpenAI 在论文及相关发布材料中反复提及一个概念:research taste(科研品味)。这一概念指的是研究者面对杂乱原始数据时,做出一系列关键判断的能力 —— 哪些问题可以通过现有数据解答、哪些无法实现;何时应当坚持初始假设、何时应当及时调整方向;早期的预警信号对应着哪些潜在风险。这种能力无法通过教科书直接习得,需要在大量科研实战中逐步积累形成。

GeneBench-Pro 的核心设计目标,正是考核这种难以量化的综合判断能力。它不考察模型 “会不会使用某款统计工具”,而是验证在数据不完美、信息不完整、路径不唯一的真实场景下,模型能否做出连贯正确的判断,最终得出能够支撑决策的可靠结论。

为保障测试的严谨性,129 道试题中有 82 道经过了领域外部专家评审,评审团队涵盖研究生、博士后、产业界科学家与高校教授。评审过程中,研究团队发现部分试题无法从数据中推导出唯一标准答案,便直接对题设进行了调整,其严谨程度已超过绝大多数 AI 基准测试的标准。

科研 AI 赛道竞速 端到端落地仍有较长路径

GeneBench-Pro 发布的时间节点颇具行业意义。同日,Anthropic 推出了 Claude Science 科研智能体工作台,两家行业巨头在 AI 科研应用赛道同步加码,但二者的技术路线各有侧重:Anthropic 的思路是将现有模型集成到工作台中,通过工具链与标准化流程弥补模型的可靠性不足;OpenAI 则选择先定义 “科研任务完成的标准”,掌握评测体系的话语权。

目前行业的共识在于,AI 赋能科研的发展瓶颈,已不再是模型基础能力不足,而是距离真正的端到端科研应用仍有明显差距,单纯堆叠算力与数据的发展路径,在科研场景中已难以持续突破。

据了解,OpenAI 已在相关开源平台上线 10 道演示试题,另有 50 道试题将交由第三方机构开展独立复测,后续第三方测试结果将进一步验证本次通过率数据的准确性。

无论最终数据如何,行业已形成清晰的判断:AI 距离 “独立开展科研工作” 仍有很长的路要走。当前阶段,AI 可以辅助科研人员完成数据清理、方向初探、局部信号排查等基础性工作,但关键的统计方法选择、研究路径调整、最终结论研判等核心环节,仍需要人类科研工作者主导。129 道基于脏数据的试题,测出的不只是一个通过率数字,更是当前 AI 科研能力的真实边界。边界的另一端,是人类科研工作者数十年积累形成的科研判断力与专业素养,AI 想要实现真正的跨越,仅靠更大的模型、更多的数据远远不够。

对于科研机构与研发团队而言,灵活调用多类 AI 模型辅助科研工作、提升研发效率,已成为行业共识。目前,UseAIAPI 已同步接入 Gemini、Claude、GPT 系列、DeepSeek 等全球主流热门大模型,覆盖文献梳理、数据分析、代码编写、方案推演等多元科研应用场景,支持一站式便捷调用与企业级定制化接入服务,无需复杂部署即可快速适配各类研发需求。在调用成本方面,平台专属优惠最高可达官方定价的 50%,能够有效降低高强度科研场景下的算力消耗压力,帮助科研团队以更可控的成本,灵活运用前沿 AI 能力赋能研究工作。