
别问模型够不够聪明,先问你的活值不值那个档位 ——Gemini 3.1 Pro 三层思考系统深度解析
打开 Gemini 3.1 Pro 的 API 文档,第一行就写着:thinkingLevel有三个选项 ——low、medium、high,默认值是 high。
如果你看完这一行,脑子里自动翻译成 "越贵越聪明",然后直接关掉页面 —— 那这篇文章就是专门写给你的。
事实上,这三个选项根本不是 "聪明档位" 的换挡拨片,而是成本、质量、速度组成的三体控制杆:你拉动其中一档,另外两档会跟着联动。问题是绝大多数开发者根本不知道自己一直在用什么档位 —— 更不知道 API 正用最贵的引擎跑最简单的任务,账单在悄悄膨胀。很多人还在反复追问:"为什么我的成本又涨了?"
一、"三档" 的真实含义:不是更聪明,是更深想(更烧钱)
Gemini 3.1 Pro 首次引入了三层思考系统。上一代 Gemini 3 Pro 只有粗暴的 low 和 high 两档,切换粒度太粗 ——low 不够用,high 又太贵。新增的 medium 档精准填补了这个空白。
表格
| 档位 | 核心特征 | 最佳适用场景 | 成本特征 |
|---|---|---|---|
| low | 最小化或跳过思考链,毫秒级响应,Token 消耗最低 | 简单指令跟随、日常聊天、基础翻译、文本分类、高吞吐批量任务 | 输出 Token 消耗可降低 80% 以上,极致省钱 |
| medium ⭐ | 3.1 新增的平衡档,推理质量约等于旧版 3 Pro 的 high 档,但 Token 成本仅为 3.1 high 档的 60%~70% | 绝大多数编程任务的黄金档:代码审查、常规函数实现、单元测试生成 | 全场景性价比之王 |
| high | 自动载入 Deep Think Mini 推理引擎,进入多步深度推理状态,思考 Token 按输出单价计费 | 复杂算法实现、跨模块架构设计、深层逻辑调试、安全漏洞扫描 | 最贵但也是唯一真正值回票价的档位 |
那个高达 77.1% 的 ARC-AGI-2(抽象新逻辑模式推理)得分,正是 high 档深度推理换来的结果 —— 这不是 "稍微好一点",而是彻底换了一条推理路径。
⚡ 最关键的认知误区:high 档的思考 Token 不是 "免费的额外智力"—— 它占用的是输出 Token 预算,按 12 美元 / 百万 Token(≤200K)或 18 美元 / 百万 Token(>200K)计费。你以为你在付 "聪明税",其实是在付 "思考链长度 × 输出单价"。
二、"比 Claude 便宜 7.5 倍" 的陷阱:你在用 high 档跑 Hello World
Claude Opus 级别的定价(5/25 美元 / 百万 Token)对比 Gemini(2/12 美元 / 百万 Token),7.5 倍的差价摆在那里,所有人第一反应都是 "闭眼选 Gemini"。
但 API 的默认thinkingLevel是 high。只要你不在每次调用里显式指定档位,所有任务 —— 哪怕是 "翻译一段话"" 给一个函数加注释 ""输出 Hello World"—— 都在跑最高推理档。
一天 1000 次这样的简单调用,全年账单的差距不在几百美元,而在几千美元。这不是开源节流的问题,这是水龙头没关的问题。
反过来,如果一个任务复杂到真的需要深度推理,low 档也确实应该排除。比如对 4000 行代码的仓库级审查:理论上 low 档 "能跑完",但它会跳过跨文件逻辑依赖的多步推断,结果扫出来的全是 "表面注释问题",深层隐患一个都没发现 —— 这笔钱才是真的打水漂。
三、三种编程场景的档位速查表(直接贴显示器上)
档位选择不看任务描述的文字长短,看的是任务需要多少跨上下文关联和多步推理。
表格
| 任务类型 | 推荐档位 | 核心理由 |
|---|---|---|
| 代码补全、函数注释、简单脚本生成 | low | 边界清晰,不需要深层推理,追求低延迟高吞吐 |
| 单文件代码审查、常规函数实现、单元测试生成 | medium ★ | 绝大多数编程任务的默认档,成本与质量的最佳平衡点 |
| 复杂算法实现、重构分析、多步逻辑调试 | medium→high | 先用 medium 跑,遇到逻辑卡点再切换到 high |
| 跨模块架构设计、跨仓库依赖追踪、安全漏洞扫描、跨文件深层审查 | high | 涉及跨文件关联和深层推理,必须启用 Deep Think Mini 模式 |
| 陌生抽象问题的首次理解与归因(ARC-AGI 类) | high | 需要从未知逻辑中归纳规则,high 档的推理优势不可替代 |
| 全库级功能迭代:规划 + 实现 | high→medium | 用 high 做全局架构规划,确认方案后用 medium 跑具体实现 |
有一个值得单独拎出来的行业经验:某大型互联网团队对 200K Token 级 TypeScript 全仓库扫描统一使用 medium 档,结论非常直白:
"90% 以上的日常审查任务 medium 完全够用,high 档只应该在安全扫描和关键架构一致性检查中开启。"
调试也是同理:debug 本质上是分析任务,不是创作任务 —— 绝大多数调试用 medium 足够,只有在 "新算法归因" 或 "陌生逻辑链排查" 时才需要切换到 high。
四、最简单的省钱操作:每次调用都显式写档位
很多人用了半年 Gemini 3.1 Pro,还不知道自己的 API 默认一直在跑 high 档。不主动设置thinkingLevel,模型就会给你最贵的档位和最慢的响应。
最基础的控费根本不是去找更便宜的替代模型,而是每次调用都把档位写死。
REST API 调用示例
json
{
"contents": [{
"parts": [{"text": "为这个函数添加JSDoc,标注所有参数和返回值"}]
}],
"generationConfig": {
"thinkingConfig": {
"thinkingLevel": "medium"
}
}
}
Python SDK 调用示例(新版 google.genai)
python
运行
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
resp = client.models.generate_content(
model="gemini-3.1-pro-preview",
contents="为所有exported function添加JSDoc注释",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(
thinking_level="MEDIUM" # ← 永远不要用默认值
)
),
)
日常代码生成用 medium 足够;只有在真正需要 Deep Think Mini 深度分析的时候,才值得调到 HIGH。
如果一个工程师天天抱怨 "Gemini 怎么变贵了",却从来没看过自己调用日志里thinkingLevel那一列 —— 他的账单会一直贵下去。
五、最后一句话总结
Gemini 3.1 Pro 的三层思考系统,本质是把原本模糊不可控的 "推理深度" 变成了一个显式的资源调度接口。low、medium、high 之间没有绝对的 "谁更好",只有 ——
哪个档位更匹配你今天的任务价值。
用 high 档跑 "今天天气怎么样"= 用核导弹打鸡;用 low 档去解跨文件深层架构问题 = 把活干废。显式设置档位,是最简单也最有效的控费方法,没有之一。
想要第一时间体验 Gemini 3.1 Pro 的极致性价比,以及 Claude、GPT、DeepSeek 等全球主流 AI 大模型的最新特性?UseAIAPI为广大企业和开发者提供一站式稳定接入服务。平台全面覆盖全球热门 AI 大模型 API 接口,无需繁琐配置即可快速上手,同时还可根据企业个性化需求提供定制化解决方案,全程保障服务的稳定性与安全性。
在成本方面,UseAIAPI 推出了极具竞争力的专属优惠政策,所有模型 API 调用最低可享官方价格 5 折优惠。无论是独立开发者的日常编码需求,还是企业级的大规模 AI 应用部署,都能大幅降低算力成本,让你无需为高昂的 AI 使用费用担忧,能够全身心投入到核心业务创新中。