← 返回 Blog

全员考砸!GeneBench-Pro 横向榜:Opus 4.8 16%、Gemini 3.5 Flash 8.1%,开源权重建模被 coding 偏置坑了

近日,OpenAI 在预印本平台 bioRxiv 发布 GeneBench-Pro 生物推理基准相关研究论文,推出一套覆盖基因组学、数量生物学、转化医学等 10 大领域、21 个子领域的专业评测体系。与传统 AI 基准测试不同,这套评测摒弃干净规整的标准化数据集,全部采用包含缺失值、批次效应、随机噪声的 “脏数据”,仅搭配简短实验背景与关联下游决策的目标问题,核心考察模型的自主分析逻辑与科研判断能力,而非固定流程的执行能力。

OpenAIGeneBench-Pro 生物推理基准评测结果发布

GeneBench-Pro 生物推理基准评测结果发布 多模型表现凸显 AI 科研应用能力边界

近日,OpenAI 在预印本平台 bioRxiv 发布 GeneBench-Pro 生物推理基准相关研究论文,推出一套覆盖基因组学、数量生物学、转化医学等 10 大领域、21 个子领域的专业评测体系。与传统 AI 基准测试不同,这套评测摒弃干净规整的标准化数据集,全部采用包含缺失值、批次效应、随机噪声的 “脏数据”,仅搭配简短实验背景与关联下游决策的目标问题,核心考察模型的自主分析逻辑与科研判断能力,而非固定流程的执行能力。

横向评测整体通过率偏低 头部模型差距显著

从评测结果来看,当前主流大模型在专业生物推理场景的表现仍处于较早发展阶段,整体通过率普遍偏低。

其中 GPT-5.6 Sol Pro 在开启最高算力 Pro 模式后,通过率达到 31.5%,关闭 Pro 模式后为 28.7%,已是本次评测中的全场最高分。即便如此,也仅能完成约三分之一的完整分析任务,算力升级带来的通过率提升约 2.8 个百分点,边际收益已呈现递减特征。

其余主流模型的表现存在明显差距:Claude Opus 4.8 通过率为 16.0%,Gemini 3.5 Flash 为 8.1%,GPT-5.5、GPT-5.4 的通过率分别为 12.0%、8.9%,开源模型未能进入有效榜单。对比一年前初代 GeneBench 基准不足 5% 的顶尖通过率,行业技术迭代速度值得肯定,但横向来看,除 OpenAI 外其余模型均未突破 20%,距离独立完成完整科研分析的实用门槛仍有较大差距。

评测逻辑重构考核维度 核心瓶颈指向科研决策能力

整体通过率偏低的核心原因,并非模型算力不足,而是评测的考核维度与传统基准存在本质差异。

传统生物领域的 AI 评测多围绕知识点记忆、标准化流程执行展开,模型按既定步骤完成操作即可得分。而 GeneBench-Pro 的核心考察目标是科研判断力:模型需要自主判断数据集的适用范围、选择适配的统计方法、识别异常信号并调整分析路径,全程没有标准化的解题指引。同时评测采用二元制评分规则,只有最终结论正确且中间分析逻辑符合要求才算通过,结论错误则直接计零分。据领域专家估算,人类科研人员完成单道试题需要 20 至 40 小时,对应博士级别的完整研究课题工作量。

论文同时揭示了当前 AI 模型普遍存在的共性短板:“感知 - 行动鸿沟”。模型大多能够识别出数据中的异常信号,比如样本检测值偏差、批次效应等,但不会基于该发现调整后续的分析路径,往往仍沿初始设定的逻辑继续推演,最终导致结论错误。能够发现问题,却无法根据问题修正研究方向,是当前 AI 在科研推理场景的核心瓶颈。

模型能力分化明显 训练目标决定场景适配性

不同模型的表现差异,也直观反映出训练方向对场景适配性的影响,能力的长板与短板均与训练目标高度相关。

以 Claude Opus 4.8 为例,该模型在编程基准测试中表现突出,但在生物推理评测中通过率仅 16%。这种反差并非模型通用能力不足,而是训练侧重的差异所致:Opus 系列的训练数据以软件工程领域内容为主,擅长代码库解读、漏洞修复、补丁编写等任务,而这类能力无法直接迁移到生物分析场景。更关键的是,编程任务具备即时反馈机制,代码运行错误可立刻获得提示并修正;而生物数据分析是长链路、多岔口的推理过程,中间环节的判断偏差不会立刻显现,需要模型具备主动复盘、调整路径的能力,这恰恰是侧重线性执行的模型所欠缺的。

通用大模型与开源模型的短板则更为突出。Gemini 及主流开源模型的训练数据以通用文本、代码内容为主,生物领域的专业数据,尤其是包含复杂因果逻辑、需要动态判断的非标准化数据占比极低。同时这类模型普遍以单轮问答为核心训练目标,多轮自主推理、自主决策的能力不足,面对需要在数十个推理节点自主导航的科研任务时,能力落差被进一步放大。

明确能力边界 辅助科研仍是当前核心定位

整体偏低的通过率,并不代表 AI 在生物科研领域没有应用价值,反而清晰划定了当前技术的能力边界与迭代方向。

现阶段 AI 已经可以高效完成数据清洗、初步趋势探索、局部信号排查等基础性工作,能够有效减轻科研人员的事务性负担。但核心的统计方法选择、分析路径调整、研究结论研判等环节,仍需科研人员主导。GeneBench-Pro 这套评测体系的价值,不在于给模型划分排名,而在于将 “科研判断力” 这一抽象能力转化为可量化的考核指标,指明了技术下一步的突破方向 —— 从堆叠算力、扩充参数,转向优化推理决策逻辑。

对于生物医药企业、科研机构与研发团队而言,AI 在生物信息分析领域的能力正在快速迭代,合理借助 AI 工具能够有效提升科研效率。选择灵活的多模型接入平台,能够根据不同科研场景匹配适配的模型能力,同时控制整体算力投入。

目前,UseAIAPI 已同步接入 Gemini、Claude、GPT 系列、DeepSeek 等全球主流热门大模型,覆盖生物信息分析、科研文献整理、代码编写、方案推演等多元科研应用场景,支持一站式便捷调用与企业级定制化接入服务,无需复杂部署即可快速适配各类研发需求。在调用成本方面,平台专属优惠最高可达官方定价的 50%,能够有效降低高强度科研场景下的算力消耗压力,帮助科研团队与企业以更可控的成本,灵活运用前沿 AI 能力赋能研究工作。