
从 5% 到 31.5% 生物推理赛道一年跃升 见证 AI 科研应用加速突破
将时间回溯至 2025 年,初代 GeneBench 基准发布时,全球顶尖 AI 模型在生物信息分析测试中的通过率尚不足 5%。仅时隔一年,2026 年 6 月 30 日,在升级后的 GeneBench-Pro 评测体系中,GPT-5.6 Sol Pro 模型的通过率已达到 31.5%。一年时间实现六倍增长,这条爆发式提升的曲线,清晰展现出 AI 在生物推理赛道的演进速度。
评测体系贴近真实科研 单题对应数千美元人力价值
GeneBench-Pro 并非传统的知识点类评测基准。该体系包含 129 道测试题,覆盖基因组学、数量生物学、转化医学等 10 大领域、21 个子领域。与常规测试提供干净规整数据集的设计不同,每道题目均提供带有缺失值、批次效应、录入错误、随机噪声的 “脏数据集”,仅搭配简短的实验背景介绍与一项关联后续决策的目标问题。模型需要自主完成全流程判断:现有数据能够解答哪些问题、应当选择何种统计方法、数据中的异常信号对应何种风险。
据领域专家估算,人类科研专家完成单道试题需 20 至 40 小时,按照科研人力成本测算,单题的人工价值可达数千美元,而 AI 完成单题分析的成本仅为数美元。整套 129 道试题对应的科研工作量价值可达数十万美元,31.5% 的通过率意味着 AI 能够独立端到端完成其中约 40 道题目的分析工作,而同等工作量由人工完成需要耗费数十天。
“感知 - 行动” 鸿沟尚存 决策修正能力成核心瓶颈
尽管一年间成绩实现六倍跃升,但 31.5% 的通过率仍意味着近七成题目无法独立完成。OpenAI 研究团队在论文中揭示了制约能力提升的典型问题:模型能够识别数据中的异常信号,但无法将相关发现同步应用到后续的分析决策中,研究团队将这一现象命名为 “notice-act gap”,即 “注意到” 与 “行动” 之间的能力断层。
例如在测试场景中,模型能够发现某样本检测值异常偏高,也可判断其属于批次效应。按照规范的分析逻辑,下一步应当调整统计模型,将批次效应作为协变量进行控制。但实际测试中,模型并不会做出对应调整,而是沿着初始设定的分析路径继续推进,最终得出错误结论。
这一断层比单纯的低通过率更具行业警示意义。它表明当前 AI 模型的核心短板并非知识储备或运算能力不足,而是缺少科研工作者的核心素养:根据新证据动态修正研究假设的能力。真正的科研人员发现异常数据时,会暂停分析、回溯流程、调整方法;而 AI 即便识别到问题,仍会按既定路径继续执行。
多重技术迭代支撑提速 推理算力投入效果显著
从不足 5% 到 31.5% 的跨越并非偶然,背后是多维度技术能力的持续迭代。一方面,GPT-5.6 Sol 的长链推理能力实现了显著增强,该模型此前已在 Terminal-Bench 2.1 测试中取得 91.9% 的成绩,长链条多步推理能力的提升,能够直接迁移应用到生物数据分析的多步决策场景中。
另一方面,推理阶段的算力投入对最终结果影响明显。数据显示,GPT-5.6 Sol 在常规最高推理档位下通过率为 28.7%,切换至 Pro 模式并拉满推理预算后,通过率提升至 31.5%,两者相差近 3 个百分点。这表明模型本身已具备相应的分析潜力,只是需要在推理阶段投入更多时间与算力,支撑其完成更充分的逻辑推演。
为保障评测的严谨性,研究团队邀请领域外部专家对 82 道试题开展评审,评审团队涵盖研究生、博士后、产业界科学家与高校教授。评审过程中,针对部分无法从数据推导出唯一标准答案的题目,研究团队直接调整了题设,其严谨程度已超过多数 AI 基准测试的标准。
增长曲线预示广阔空间 科研落地进程持续加速
有观点认为 31.5% 的通过率尚未达到大规模实用的程度,但从发展趋势来看,一年六倍的增长速度已远超行业普遍预期。按照当前的演进节奏,未来生物推理领域的能力提升仍将保持较快态势。
据了解,OpenAI 已在 Hugging Face 平台开源 10 道演示试题,另有 50 道试题将交由第三方机构开展独立复测,后续测试结果将进一步验证本次通过率数据的客观性。
无论第三方复测结果如何,从 5% 到 31.5% 的增长曲线已经清晰勾勒出行业的发展脉络:AI 在生物医学推理领域的进步速度,远超大众普遍认知。当前存在的 “感知 - 行动” 能力断层,也大概率会在后续的模型迭代中逐步得到填补。随着技术的持续迭代,行业讨论的焦点将很快从 “AI 能不能辅助科研” 转向 “AI 如何深度融入科研全流程”。
对于生物医药企业、生物信息分析团队与科研机构而言,AI 模型在生物推理领域的快速迭代,为研发提效带来了全新的可能性。灵活调用适配的大模型能力,能够有效辅助数据分析、文献梳理、方案推演等工作,缩短研发周期。目前,UseAIAPI 已同步接入 Gemini、Claude、GPT 系列、DeepSeek 等全球主流热门大模型,覆盖生物信息分析、科研文献整理、代码编写、方案推演等多元应用场景,支持一站式便捷调用与企业级定制化接入服务,无需复杂部署即可快速适配各类研发需求。在调用成本方面,平台专属优惠最高可达官方定价的 50%,能够有效降低高强度科研场景下的算力消耗压力,帮助科研团队与企业以更可控的成本,灵活运用前沿 AI 能力赋能研发工作。