
推理算力边际效应显现 GeneBench-Pro 测试勾勒 AI 生物推理能力进阶方向
6 月 30 日,OpenAI 在预印本平台 bioRxiv 发布 GeneBench-Pro 相关研究论文。这套评测体系包含 129 道专业试题,覆盖基因组学、数量生物学、转化医学等 10 大领域,测试结果虽未引发大范围公众讨论,却为行业清晰呈现了当前 AI 在生物推理领域的真实能力边界与演进逻辑。
测试数据显示,GPT-5.6 Sol 在常规最高推理档位下通过率为 28.7%;开启 Pro 模式、将推理算力预算拉至上限后,通过率提升至 31.5%,二者相差 2.8 个百分点。单看数值,三成左右的通过率并不算高,但这 2.8 个百分点的差距背后,藏着 AI 生物推理能力进阶的核心逻辑,其参考价值远高于分数本身。
算力投入边际递减 能力瓶颈不在计算而在决策
要理解这 2.8 个百分点的分量,首先要明确 Pro 模式的本质:为模型投入更多时间与算力资源,支撑其完成更充分的逻辑推演。值得注意的是,常规测试所用的 “最高推理档” 本身已配置了可观的算力预算,Pro 模式在此基础上进一步加码,算力投入成倍增长的前提下,仅换来了不足 3 个百分点的通过率提升。
换算到 129 道试题的总量中,额外的算力投入仅让模型多答对约 3.6 道题,边际收益递减的特征十分明显。这一现象传递出明确信号:制约 AI 在该测试中表现的核心因素,并非计算资源不足,而是决策逻辑的偏差。
论文中揭示的 “notice-act gap(感知 - 行动鸿沟)” 现象,印证了这一判断。测试中,模型能够识别出数据中的异常信号,比如样本检测值异常偏高、存在明显的批次效应,但并不会基于这一发现调整后续的分析路径。即便发现了问题,模型仍会沿着最初设定的分析路径继续推进,最终得出错误结论。
额外投入的算力,能够让模型在既定路径上完成更细致的推演,却很难帮助模型主动修正研究方向、调整分析逻辑。这也意味着,单纯堆叠算力的发展路径,在生物推理这类需要动态决策的场景中,已经逐渐触碰到效能天花板。
一年实现六倍增长 技术迭代速度超出预期
如果孤立看待 31.5% 的通过率,很容易得出 “能力尚不成熟” 的判断,但放在行业迭代的时间维度中,这一成绩的含金量便会充分显现。
时间回溯至一年前,初代 GeneBench 基准发布时,全球顶尖模型的通过率尚不足 5%。短短 12 个月间,该项指标从 5% 提升至 31.5%,实现了六倍以上的增长。横向对比来看,GPT-5.5 在该测试中的通过率为 12.0%,GPT-5.4 为 8.9%,新一代模型较前代实现了近 20 个百分点的跃升;非 GPT 阵营的顶尖模型 Claude Opus 4.8 通过率为 16.0%,Gemini 3.5 Flash 仅为 8.1%,GPT-5.6 Sol 已在生物推理领域建立了明显的领先优势。
从人力成本的维度对比,更能体现技术落地的价值。据领域专家估算,人类科研人员完成单道试题需要 20 至 40 小时,单题的人力成本可达数千美元;而 AI 完成单题分析的成本仅为数美元。31.5% 的通过率,意味着 AI 能够独立端到端完成其中约 40 道题的分析工作,对应人工需要数十天才能完成的工作量。尽管距离全面落地应用仍有距离,但技术迭代的速度与降本增效的潜力已经十分清晰。
核心瓶颈转向科研判断力 技术发展方向已明确
GeneBench-Pro 与传统 AI 基准测试的核心差异,在于考核维度从 “计算能力” 转向了 “决策能力”。传统评测往往提供干净规整的数据集、明确的解题步骤,按步骤完成度给分;而 GeneBench-Pro 仅提供包含各类问题的 “脏数据”、简短的实验背景与关联下游决策的目标问题,模型需要自主判断数据适用范围、选择分析方法、应对异常信号,全程没有标准化的解题路径。
这种设计指向的是科研工作中的核心能力:research taste(科研判断力),即研究者面对不完整、不完美的数据时,做出一系列关键判断的能力 —— 哪些问题可以通过现有数据解答、异常信号是否需要调整模型、初始假设是否应当修正。这种能力无法通过知识背诵获得,需要长期的科研实践积累形成。
当前 AI 的能力短板,恰恰集中在这一维度。模型可以高效完成数据清洗、执行标准化分析流程、识别局部数据信号,但在 “根据新证据动态修正研究假设” 这一核心环节,仍存在明显短板。算力投入的增加可以小幅提升通过率,却无法从根本上填补 “感知到问题但不调整行动” 的能力鸿沟。
31.5% 并非 AI 生物推理发展的终点,而是技术演进路上的一块清晰路标。它清晰标明了当前的能力边界,也指明了未来的突破方向:从堆叠算力转向优化决策逻辑。从 5% 到 31.5% 的一年跨越,已经证明了技术迭代的速度;尽管后续的提升难度会持续增加,但发展方向已经明确,技术落地的进程只会不断加快。
对于生物医药企业、科研机构与研发团队而言,AI 在生物信息分析领域的快速进步,为研发提效带来了更多可能性。灵活适配多类 AI 模型、合理控制调用成本,能够最大化释放 AI 对科研工作的赋能价值。
目前,UseAIAPI 已同步接入 Gemini、Claude、GPT 系列、DeepSeek 等全球主流热门大模型,覆盖生物信息分析、科研文献梳理、代码编写、方案推演等多元科研应用场景,支持一站式便捷调用与企业级定制化接入服务,无需复杂部署即可快速适配各类研发需求。在调用成本方面,平台专属优惠最高可达官方定价的 50%,能够有效降低高强度科研场景下的算力消耗压力,帮助科研团队与企业以更可控的成本,灵活运用前沿 AI 能力赋能研究工作。