推理算力边际效应显现 GeneBench-Pro 测试勾勒 AI 生物推理能力进阶方向

6 月 30 日，OpenAI 在预印本平台 bioRxiv 发布 GeneBench-Pro 相关研究论文。这套评测体系包含 129 道专业试题，覆盖基因组学、数量生物学、转化医学等 10 大领域，测试结果虽未引发大范围公众讨论，却为行业清晰呈现了当前 AI 在生物推理领域的真实能力边界与演进逻辑。

测试数据显示，GPT-5.6 Sol 在常规最高推理档位下通过率为 28.7%；开启 Pro 模式、将推理算力预算拉至上限后，通过率提升至 31.5%，二者相差 2.8 个百分点。单看数值，三成左右的通过率并不算高，但这 2.8 个百分点的差距背后，藏着 AI 生物推理能力进阶的核心逻辑，其参考价值远高于分数本身。

算力投入边际递减能力瓶颈不在计算而在决策

要理解这 2.8 个百分点的分量，首先要明确 Pro 模式的本质：为模型投入更多时间与算力资源，支撑其完成更充分的逻辑推演。值得注意的是，常规测试所用的 “最高推理档” 本身已配置了可观的算力预算，Pro 模式在此基础上进一步加码，算力投入成倍增长的前提下，仅换来了不足 3 个百分点的通过率提升。

换算到 129 道试题的总量中，额外的算力投入仅让模型多答对约 3.6 道题，边际收益递减的特征十分明显。这一现象传递出明确信号：制约 AI 在该测试中表现的核心因素，并非计算资源不足，而是决策逻辑的偏差。

论文中揭示的 “notice-act gap（感知 - 行动鸿沟）” 现象，印证了这一判断。测试中，模型能够识别出数据中的异常信号，比如样本检测值异常偏高、存在明显的批次效应，但并不会基于这一发现调整后续的分析路径。即便发现了问题，模型仍会沿着最初设定的分析路径继续推进，最终得出错误结论。

额外投入的算力，能够让模型在既定路径上完成更细致的推演，却很难帮助模型主动修正研究方向、调整分析逻辑。这也意味着，单纯堆叠算力的发展路径，在生物推理这类需要动态决策的场景中，已经逐渐触碰到效能天花板。

一年实现六倍增长技术迭代速度超出预期

如果孤立看待 31.5% 的通过率，很容易得出 “能力尚不成熟” 的判断，但放在行业迭代的时间维度中，这一成绩的含金量便会充分显现。

时间回溯至一年前，初代 GeneBench 基准发布时，全球顶尖模型的通过率尚不足 5%。短短 12 个月间，该项指标从 5% 提升至 31.5%，实现了六倍以上的增长。横向对比来看，GPT-5.5 在该测试中的通过率为 12.0%，GPT-5.4 为 8.9%，新一代模型较前代实现了近 20 个百分点的跃升；非 GPT 阵营的顶尖模型 Claude Opus 4.8 通过率为 16.0%，Gemini 3.5 Flash 仅为 8.1%，GPT-5.6 Sol 已在生物推理领域建立了明显的领先优势。

从人力成本的维度对比，更能体现技术落地的价值。据领域专家估算，人类科研人员完成单道试题需要 20 至 40 小时，单题的人力成本可达数千美元；而 AI 完成单题分析的成本仅为数美元。31.5% 的通过率，意味着 AI 能够独立端到端完成其中约 40 道题的分析工作，对应人工需要数十天才能完成的工作量。尽管距离全面落地应用仍有距离，但技术迭代的速度与降本增效的潜力已经十分清晰。

核心瓶颈转向科研判断力技术发展方向已明确

GeneBench-Pro 与传统 AI 基准测试的核心差异，在于考核维度从 “计算能力” 转向了 “决策能力”。传统评测往往提供干净规整的数据集、明确的解题步骤，按步骤完成度给分；而 GeneBench-Pro 仅提供包含各类问题的 “脏数据”、简短的实验背景与关联下游决策的目标问题，模型需要自主判断数据适用范围、选择分析方法、应对异常信号，全程没有标准化的解题路径。

这种设计指向的是科研工作中的核心能力：research taste（科研判断力），即研究者面对不完整、不完美的数据时，做出一系列关键判断的能力 —— 哪些问题可以通过现有数据解答、异常信号是否需要调整模型、初始假设是否应当修正。这种能力无法通过知识背诵获得，需要长期的科研实践积累形成。

当前 AI 的能力短板，恰恰集中在这一维度。模型可以高效完成数据清洗、执行标准化分析流程、识别局部数据信号，但在 “根据新证据动态修正研究假设” 这一核心环节，仍存在明显短板。算力投入的增加可以小幅提升通过率，却无法从根本上填补 “感知到问题但不调整行动” 的能力鸿沟。

31.5% 并非 AI 生物推理发展的终点，而是技术演进路上的一块清晰路标。它清晰标明了当前的能力边界，也指明了未来的突破方向：从堆叠算力转向优化决策逻辑。从 5% 到 31.5% 的一年跨越，已经证明了技术迭代的速度；尽管后续的提升难度会持续增加，但发展方向已经明确，技术落地的进程只会不断加快。

对于生物医药企业、科研机构与研发团队而言，AI 在生物信息分析领域的快速进步，为研发提效带来了更多可能性。灵活适配多类 AI 模型、合理控制调用成本，能够最大化释放 AI 对科研工作的赋能价值。

目前，UseAIAPI 已同步接入 Gemini、Claude、GPT 系列、DeepSeek 等全球主流热门大模型，覆盖生物信息分析、科研文献梳理、代码编写、方案推演等多元科研应用场景，支持一站式便捷调用与企业级定制化接入服务，无需复杂部署即可快速适配各类研发需求。在调用成本方面，平台专属优惠最高可达官方定价的 50%，能够有效降低高强度科研场景下的算力消耗压力，帮助科研团队与企业以更可控的成本，灵活运用前沿 AI 能力赋能研究工作。

推理算力边际效应显现 GeneBench-Pro 测试勾勒 AI 生物推理能力进阶方向

算力投入边际递减 能力瓶颈不在计算而在决策

一年实现六倍增长 技术迭代速度超出预期

核心瓶颈转向科研判断力 技术发展方向已明确

算力投入边际递减能力瓶颈不在计算而在决策

一年实现六倍增长技术迭代速度超出预期

核心瓶颈转向科研判断力技术发展方向已明确