← 返回 Blog

为什么你的 Gemini 3.1 Pro "写得出但跑不了"?High thinking 不开=多文件逻辑走捷径,开满=Token 烧穿天花板

先给你一个不得不接受的事实: Gemini 3.1 Pro 在 SWE-Bench Verified 上拿到了 80.6% 的得分,代码生成能力一度在 Aider 基准测试中超越所有闭源对手。时至今日,闭源赛道里已经没有 "写不出代码" 的模型了。真正让工程师头疼的,是代码 "看着对,但跑不起来"—— 函数定义在 A 文件、调用在 B 文件、数据结构在 C 文件被复用了两次、D 文件的初始化顺序又反向依赖 A…… 这些微妙的跨文件依赖关系,在模型的中档推理链(medium)上很容易被直接跳过。

GeminiGemini 3.1 Pro 编程

Gemini 3.1 Pro 编程两难:不用 HIGH 有漏洞,用了 HIGH 烧预算

先给你一个不得不接受的事实:

Gemini 3.1 Pro 在 SWE-Bench Verified 上拿到了 80.6% 的得分,代码生成能力一度在 Aider 基准测试中超越所有闭源对手。时至今日,闭源赛道里已经没有 "写不出代码" 的模型了。真正让工程师头疼的,是代码 "看着对,但跑不起来"—— 函数定义在 A 文件、调用在 B 文件、数据结构在 C 文件被复用了两次、D 文件的初始化顺序又反向依赖 A…… 这些微妙的跨文件依赖关系,在模型的中档推理链(medium)上很容易被直接跳过。

而把thinkingLevel切到 HIGH、启动 Deep Think Mini 模式,又像打开了一个无底洞 —— 复杂推理 token 会以惊人的速度烧穿你的月度预算。

这就是 Gemini 3.1 Pro 在复杂编程场景中面临的核心两难。

一、不用 HIGH 的代价:跨文件逻辑的 "推理短路"

Gemini 3.1 Pro 提供了三层思考深度:LOW(毫秒级响应,处理简单任务)、MEDIUM(平衡档,处理中等复杂度任务)、HIGH(启动深度推理引擎)。但问题在于,日常编码任务的 "思考深度需求" 并不是均匀分布的。

表格

档位推理 token 消耗(约)核心擅长领域主要代价
LOW200–500单文件内函数实现、语法生成、单元测试编写几乎不进行深度推理,跨文件依赖关系直接瞎猜
MEDIUM ★2K–8K绝大多数日常编程任务跨文件长链路推理链容易断裂
HIGH最高可达 32K+跨模块架构设计、深层逻辑归因思考 token 按输出单价 12 美元 / 百万 token 计费

MEDIUM 档的推理 token 通常控制在 2000–8000 个左右,模型对单文件内的函数实现、语法纠错、单元测试编写已经相当熟练。但只要任务延伸到跨文件逻辑推理 —— 比如理解 "模块 A 的接口变更如何影响模块 B 的调用方式",或追踪贯穿多层服务的数据流 ——MEDIUM 的推理链就很容易出现断点。

问题的根源在于 Google 官方反复强调的一句话:Gemini 3.1 Pro 的所有 Thinking Tokens 都按标准输出 token 价格计费。这就是 "思考 token" 的双刃剑 ——Google 允许模型在输出阶段通过 Deep Think Mini 进行深度思考,但这些高质量的深度推理 token 不是免费的草稿纸,是按 12 美元 / 百万 token 结账的 "墨水"。

所以多数人为了控制成本选择 MEDIUM 甚至 LOW 档,结果就是:代码看起来写对了,但跨文件状态管理、边界条件、执行顺序经不起推敲 —— 这些逻辑盲区很难被单元测试捕获,却足以在生产环境引发一次严重故障。

有开发者测试后发现:Gemini 在处理涉及整个代码库的自动化 Agent 任务时甚至会陷入 "思考循环"—— 不断消耗 token 进行自我推演,但始终不产生可用结果。这恰恰反证了一个事实:执行复杂规划时模型确实需要深度推理;要么你用 HIGH 档把逻辑想通,要么你在 MEDIUM 档里承担 "逻辑不完整" 的隐性成本。

二、HIGH 的全额代价:token 烧穿天花板

把档位切到 HIGH,局面又会被推向另一个极端。

启动 Deep Think Mini 后,模型会为系统性推理消耗大量 token—— 这不是 "变聪明了" 那么浪漫,而是像按下开始键后,模型变成一个严谨的学者,在每一步逻辑上反复验算确认。Google 内部流出的成本数据显示:如果一个任务本身需要 4000 个 token 进行推理、最终只输出 500 个 token 的答案,你实际要为 4500 个 token 买单(因为思考链全部在输出侧计费)。

4000 个思考 token×12 美元 / 百万≈0.048 美元,单次看起来微不足道 —— 但在大规模任务环境中反复调用,每月账单很容易突破预警线。

处理一篇由 50 篇论文组成的文献综述时,HIGH 档的多步推理能跑几分钟,最终生成的技术演进图质量远超传统切片方案。但如果你只是让它修复一个小型跨文件 bug,HIGH 档会把 90% 的 token 花在内部自检上 —— 这无异于用核弹开门,门确实开了,但周围也被炸塌了。

三、选型地图:每个档位用在它该在的地方

问题从来不是 "HIGH 档值不值",而是你在哪些事情上用了它。

表格

具体场景推荐档位核心理由
跨文件代码审查、系统级调试HIGH不可替代。JetBrains 的 AI 主管测试发现:把约 500 个文件的代码仓库一次性喂给 Gemini 3.1 Pro,只有 HIGH 档的系统性推理才能定位深层 bug—— 它最大的价值不是 "写对代码",而是 "说得通逻辑":真正理解整个系统的运行机制
单文件代码生成、添加注释、编写测试用例MEDIUM(完全够用)3.1 Pro 的 MEDIUM 档≈上一代 3 Pro 的 HIGH 档;只要任务不依赖复杂跨模块依赖,能完成 80% 以上的日常编码工作,省一大笔冤枉钱
结构化数据提取、格式转换LOW你要的不是逻辑推理,是按模板执行任务,这是最经济的选择

选档的核心逻辑是对任务做一次预判:涉及多少个文件?有没有跨文件逻辑依赖?需要多少步推理或多层条件判断?搞清楚这些问题,才能避免 "用 HIGH 档付简单任务的钱" 和 "在 MEDIUM 档里漏过复杂逻辑" 这两种极端情况。

四、真正的解法:高低档协作,而不是死守某一档

唯一真正有效的方式不是钉死某一个档位,而是给项目上双保险:

  • 方案设计阶段 → 用 HIGH 档:做跨系统逻辑建模,确保模型不漏掉任何全局依赖关系
  • 代码生成阶段 → 切回 MEDIUM 档:快速输出实现细节

在团队的 Agent 工程实践中,HIGH↔MEDIUM 的动态协作已经成为处理大型代码库的标准动作:修复 bug 时先用 MEDIUM 档分析错误栈定位根因;如果发现根因与多个文件的状态变化有关、MEDIUM 档推不动时,再切回 HIGH 档做深度调查。这一套组合拳既能有效控制成本,又不会降低交付质量。

最后一句话总结:

Gemini 3.1 Pro 的多文件逻辑推理能力本来是一把好刀。这把刀真正切开 "能写但跑不起来" 那根绳的方式,从来不是靠死守某一个档位,而是你亲手在 "正确的推理深度" 和 "成本压力" 之间找到那条稳定的红线。

想要第一时间体验 Gemini 3.1 Pro 的强大编程能力,以及 Claude、GPT、DeepSeek 等全球主流 AI 大模型的最新特性?UseAIAPI为广大企业和开发者提供一站式稳定接入服务。平台全面覆盖全球热门 AI 大模型 API 接口,无需繁琐配置即可快速上手,同时还可根据企业个性化需求提供定制化解决方案,全程保障服务的稳定性与安全性。

在成本方面,UseAIAPI 推出了极具竞争力的专属优惠政策,所有模型 API 调用最低可享官方价格 5 折优惠。无论是独立开发者的日常编码需求,还是企业级的大规模代码审查、多 Agent 系统部署,都能大幅降低算力成本,让你在使用深度推理能力时不再有预算顾虑,能够全身心投入到核心业务创新中。