Gemini 3.1 Pro 编程两难：不用 HIGH 有漏洞，用了 HIGH 烧预算

先给你一个不得不接受的事实：

Gemini 3.1 Pro 在 SWE-Bench Verified 上拿到了 80.6% 的得分，代码生成能力一度在 Aider 基准测试中超越所有闭源对手。时至今日，闭源赛道里已经没有 "写不出代码" 的模型了。真正让工程师头疼的，是代码 "看着对，但跑不起来"—— 函数定义在 A 文件、调用在 B 文件、数据结构在 C 文件被复用了两次、D 文件的初始化顺序又反向依赖 A…… 这些微妙的跨文件依赖关系，在模型的中档推理链（medium）上很容易被直接跳过。

而把thinkingLevel切到 HIGH、启动 Deep Think Mini 模式，又像打开了一个无底洞 —— 复杂推理 token 会以惊人的速度烧穿你的月度预算。

这就是 Gemini 3.1 Pro 在复杂编程场景中面临的核心两难。

一、不用 HIGH 的代价：跨文件逻辑的 "推理短路"

Gemini 3.1 Pro 提供了三层思考深度：LOW（毫秒级响应，处理简单任务）、MEDIUM（平衡档，处理中等复杂度任务）、HIGH（启动深度推理引擎）。但问题在于，日常编码任务的 "思考深度需求" 并不是均匀分布的。

表格

档位	推理 token 消耗（约）	核心擅长领域	主要代价
LOW	200–500	单文件内函数实现、语法生成、单元测试编写	几乎不进行深度推理，跨文件依赖关系直接瞎猜
MEDIUM ★	2K–8K	绝大多数日常编程任务	跨文件长链路推理链容易断裂
HIGH	最高可达 32K+	跨模块架构设计、深层逻辑归因	思考 token 按输出单价 12 美元 / 百万 token 计费

MEDIUM 档的推理 token 通常控制在 2000–8000 个左右，模型对单文件内的函数实现、语法纠错、单元测试编写已经相当熟练。但只要任务延伸到跨文件逻辑推理 —— 比如理解 "模块 A 的接口变更如何影响模块 B 的调用方式"，或追踪贯穿多层服务的数据流 ——MEDIUM 的推理链就很容易出现断点。

问题的根源在于 Google 官方反复强调的一句话：Gemini 3.1 Pro 的所有 Thinking Tokens 都按标准输出 token 价格计费。这就是 "思考 token" 的双刃剑 ——Google 允许模型在输出阶段通过 Deep Think Mini 进行深度思考，但这些高质量的深度推理 token 不是免费的草稿纸，是按 12 美元 / 百万 token 结账的 "墨水"。

所以多数人为了控制成本选择 MEDIUM 甚至 LOW 档，结果就是：代码看起来写对了，但跨文件状态管理、边界条件、执行顺序经不起推敲 —— 这些逻辑盲区很难被单元测试捕获，却足以在生产环境引发一次严重故障。

有开发者测试后发现：Gemini 在处理涉及整个代码库的自动化 Agent 任务时甚至会陷入 "思考循环"—— 不断消耗 token 进行自我推演，但始终不产生可用结果。这恰恰反证了一个事实：执行复杂规划时模型确实需要深度推理；要么你用 HIGH 档把逻辑想通，要么你在 MEDIUM 档里承担 "逻辑不完整" 的隐性成本。

二、HIGH 的全额代价：token 烧穿天花板

把档位切到 HIGH，局面又会被推向另一个极端。

启动 Deep Think Mini 后，模型会为系统性推理消耗大量 token—— 这不是 "变聪明了" 那么浪漫，而是像按下开始键后，模型变成一个严谨的学者，在每一步逻辑上反复验算确认。Google 内部流出的成本数据显示：如果一个任务本身需要 4000 个 token 进行推理、最终只输出 500 个 token 的答案，你实际要为 4500 个 token 买单（因为思考链全部在输出侧计费）。

4000 个思考 token×12 美元 / 百万≈0.048 美元，单次看起来微不足道 —— 但在大规模任务环境中反复调用，每月账单很容易突破预警线。

处理一篇由 50 篇论文组成的文献综述时，HIGH 档的多步推理能跑几分钟，最终生成的技术演进图质量远超传统切片方案。但如果你只是让它修复一个小型跨文件 bug，HIGH 档会把 90% 的 token 花在内部自检上 —— 这无异于用核弹开门，门确实开了，但周围也被炸塌了。

三、选型地图：每个档位用在它该在的地方

问题从来不是 "HIGH 档值不值"，而是你在哪些事情上用了它。

表格

具体场景	推荐档位	核心理由
跨文件代码审查、系统级调试	HIGH	不可替代。JetBrains 的 AI 主管测试发现：把约 500 个文件的代码仓库一次性喂给 Gemini 3.1 Pro，只有 HIGH 档的系统性推理才能定位深层 bug—— 它最大的价值不是 "写对代码"，而是 "说得通逻辑"：真正理解整个系统的运行机制
单文件代码生成、添加注释、编写测试用例	MEDIUM（完全够用）	3.1 Pro 的 MEDIUM 档≈上一代 3 Pro 的 HIGH 档；只要任务不依赖复杂跨模块依赖，能完成 80% 以上的日常编码工作，省一大笔冤枉钱
结构化数据提取、格式转换	LOW	你要的不是逻辑推理，是按模板执行任务，这是最经济的选择

选档的核心逻辑是对任务做一次预判：涉及多少个文件？有没有跨文件逻辑依赖？需要多少步推理或多层条件判断？搞清楚这些问题，才能避免 "用 HIGH 档付简单任务的钱" 和 "在 MEDIUM 档里漏过复杂逻辑" 这两种极端情况。

四、真正的解法：高低档协作，而不是死守某一档

唯一真正有效的方式不是钉死某一个档位，而是给项目上双保险：

方案设计阶段 → 用 HIGH 档：做跨系统逻辑建模，确保模型不漏掉任何全局依赖关系
代码生成阶段 → 切回 MEDIUM 档：快速输出实现细节

在团队的 Agent 工程实践中，HIGH↔MEDIUM 的动态协作已经成为处理大型代码库的标准动作：修复 bug 时先用 MEDIUM 档分析错误栈定位根因；如果发现根因与多个文件的状态变化有关、MEDIUM 档推不动时，再切回 HIGH 档做深度调查。这一套组合拳既能有效控制成本，又不会降低交付质量。

最后一句话总结：

Gemini 3.1 Pro 的多文件逻辑推理能力本来是一把好刀。这把刀真正切开 "能写但跑不起来" 那根绳的方式，从来不是靠死守某一个档位，而是你亲手在 "正确的推理深度" 和 "成本压力" 之间找到那条稳定的红线。

想要第一时间体验 Gemini 3.1 Pro 的强大编程能力，以及 Claude、GPT、DeepSeek 等全球主流 AI 大模型的最新特性？UseAIAPI为广大企业和开发者提供一站式稳定接入服务。平台全面覆盖全球热门 AI 大模型 API 接口，无需繁琐配置即可快速上手，同时还可根据企业个性化需求提供定制化解决方案，全程保障服务的稳定性与安全性。

在成本方面，UseAIAPI 推出了极具竞争力的专属优惠政策，所有模型 API 调用最低可享官方价格 5 折优惠。无论是独立开发者的日常编码需求，还是企业级的大规模代码审查、多 Agent 系统部署，都能大幅降低算力成本，让你在使用深度推理能力时不再有预算顾虑，能够全身心投入到核心业务创新中。