← 返回 Blog

Gemini 3.1 Pro API Pricing 全表:$0.075~$5 / 1M tokens 到底怎么算?跑一次 Deep Research 烧你多少额度?(附计算器)

在 2026 年全球 AI 开发浪潮中,Google Gemini 3.1 Pro 凭借强大的多模态能力和超长上下文窗口,成为众多开发者和企业的首选模型。其官方公布的 "每百万输入令牌 2 美元、输出令牌 12 美元" 的定价,看似清晰透明,但这只是计费的起点。实际上,最终账单会受到上下文缓存、长上下文阈值、思考深度等多个隐藏变量的影响。只有把这些变量逐一拆解清楚,才能真正掌控 API 使用成本,避免收到 "惊喜账单"。

GeminiGemini 3.1 ProGemini 3.1 Pro API 账单拆解

Gemini 3.1 Pro API 账单拆解:2/12 只是起点,隐藏变量才是真正的吞金兽

在 2026 年全球 AI 开发浪潮中,Google Gemini 3.1 Pro 凭借强大的多模态能力和超长上下文窗口,成为众多开发者和企业的首选模型。其官方公布的 "每百万输入令牌 2 美元、输出令牌 12 美元" 的定价,看似清晰透明,但这只是计费的起点。实际上,最终账单会受到上下文缓存、长上下文阈值、思考深度等多个隐藏变量的影响。只有把这些变量逐一拆解清楚,才能真正掌控 API 使用成本,避免收到 "惊喜账单"。

一、基础定价公式:看似简单的两部分构成

每次调用 Gemini 3.1 Pro API,账单都会被拆分为两个独立的计费项:

表格

计费项定义官方基础价格
输入令牌(Input Tokens)所有发送给模型的内容,包括提示词、系统指令、对话历史、附带的 PDF 文档、代码库等2.00 美元 / 百万令牌
输出令牌(Output Tokens)模型生成的所有内容,包括回答文本以及内部推理过程中产生的思考令牌(thought tokens)12.00 美元 / 百万令牌

通常情况下,输出令牌数量约为输入令牌的两倍,但当开启深度思考模式时,这一比例会发生剧烈变化。需要特别注意的是,官方宣传的 "110 万上下文窗口" 只是模型的最大能力上限,并不意味着每次调用都应该填满整个窗口,否则会带来极高的成本。

二、第一大变量:上下文缓存 —— 用空间换算力的双刃剑

如果在多次调用中需要传递相同的上下文前缀,比如固定的系统指令、冗长的角色设定、通用的知识库内容等,可以启用 Gemini 的上下文缓存功能来降低成本。

表格

缓存状态输入令牌价格价格折扣
无缓存(标准调用)2.00 美元 / 百万令牌原价
缓存命中0.20 美元 / 百万令牌1 折

与其他厂商不同,Gemini 的上下文缓存并非全自动机制。缓存写入操作本身需要消耗令牌(按标准输入价格 2.00 美元 / 百万令牌计费),同时还会收取存储费用 4.50 美元 / 百万令牌 / 小时。这意味着,缓存只适合那些长期稳定、被重度复用的内容。

正确的使用方式是将稳定的公共前缀与动态请求内容分开,让公共部分走缓存通道、变动部分走标准通道,这样才能在长对话或 RAG(检索增强生成)场景中显著降低输入成本。但如果内容复用频率不够高,缓存的写入和存储成本反而会超过节省的费用,得不偿失。

三、第二大变量:长上下文阈值 ——200K 是昂贵的分水岭

200,000 令牌是 Gemini 3.1 Pro API 计费体系中一条隐形的分界线。一旦单次请求的上下文总长度超过 200K 令牌,所有计费项都会进入更高的费率档位,这是全局重定价,而非仅对超出部分加价。哪怕只超出 1 个令牌,整次请求的成本都会被推入翻倍区间。

表格

计费项≤200K 令牌价格>200K 令牌价格涨幅
输入令牌2.00 美元 / 百万4.00 美元 / 百万100%
输出令牌12.00 美元 / 百万18.00 美元 / 百万50%
缓存读取0.20 美元 / 百万0.40 美元 / 百万100%

典型的高风险场景是将长篇技术文档、完整书籍或大量历史记录一次性上传给模型。一旦输入超过 200K 令牌,输入成本直接翻倍,后续输出成本再额外增加 50%。如果 RAG 系统每次调用都加载大量历史对话记录,多轮对话的累计长度很容易跨过这条线。

有效的控费手段包括:提前预估令牌长度、超过 200K 时拆分输入内容、或者在不需要超长上下文的场景下切换到更轻量的模型。

四、第三大变量:Deep Research 模式 —— 看不见的中间成本

Deep Research 是 Gemini 3.1 Pro 最强大的功能之一,它能够自主进行多步推理、检索信息并生成深度研究报告。虽然它与标准模式共用同一套基础费率(2/12),但烧钱的逻辑完全不同。

首先,一个典型的深度研究任务需要处理数百个源文档,上下文长度超过 200K 几乎是必然的,这意味着它实际上运行在长上下文费率档(4/18)。更重要的是,Deep Research 是 "多步推理代理",每完成一个子任务都需要进行一次内部思考并生成中间答案。这些中间思考过程产生的大量令牌,全部按输出价格计费。用户最终看到的 5000 字报告,背后可能已经消耗了几十万甚至上百万的中间输出令牌。

因此,在预算有限的场景下,调用 Deep Research 前一定要预估上下文长度和预期推理步数,否则很容易收到远超预期的账单。

五、第四大变量:思考等级与附加功能 —— 细节决定成本

在标准计费中,输出令牌的单价已经是输入的 6 倍。当调高模型的思考等级时,模型会产生更详尽的内部推理链,这些思考令牌同样按输出价格计费。在复杂推理任务中将思考等级设为 "High",内部令牌的消耗会远超实际回应的长度,最终输出成本可能达到输入成本的数倍甚至 10 倍以上。如果场景不需要极高的推理精度,将思考等级维持在 "Low" 或 "Medium",能在不明显降低任务完成率的前提下显著压低账单。

此外,Web Search(联网搜索)是 Gemini API 中一个极易被忽略的附加成本项:每发起一次联网搜索请求,固定收费 14.00 美元,与令牌数量无关。Deep Research 在获取实时信息时会自动调用此功能,密集使用会让单次任务的附加成本轻易超过基础令牌费。如果任务时效性要求不高,依赖模型的参数知识而非实时联网,能有效削减这部分开支。

六、真实账单测算:不同场景的成本对比

我们以典型的中度负载为例进行测算:每月处理 500 万输入令牌 + 100 万输出令牌,其中 20% 的输入内容命中缓存。

表格

使用场景适用费率估算月费
标准调用(无缓存)2/12约 23.20 美元
合理使用缓存2/12+0.20 缓存读取约 20.00 美元
Deep Research(全部超 200K)4/18超过 38.00 美元

再看两个具体的深度研究场景:

  • 如果每月进行 10 次深度研究(每次约 50K 输入 + 10K 输出,未超 200K 阈值),月令牌费约 32.00 美元
  • 如果这 10 次任务都超过 200K 阈值(每次约 300K 输入),月费会飙升至 86.00 美元以上

七、API 还是订阅?根据使用模式做选择

不同的使用模式对应着不同的最优付费方式:

表格

使用模式建议选择成本优势
中低频用户按量计费 API只为实际使用的令牌付费,避免订阅闲置浪费
重度高频用户Gemini AI Pro 订阅(19.99 美元 / 月)性价比碾压 API。月耗 2000 万令牌的情况下,订阅只需 19.99 美元,而按 API 计费可能超过 480 美元

订阅模式在高负载场景下的成本优势极为明显。在做出选择之前,先明确自己的使用习惯:是偶尔使用,还是每天要消耗几百万令牌?

对于希望灵活调用全球主流 AI 大模型、同时有效控制成本的开发者和企业,UseAIAPI提供了一站式解决方案。平台无缝集成 Gemini、Claude、ChatGPT、DeepSeek 等全球热门大模型的最新版本,无需分别注册多个账号即可按需切换调用。同时,平台还提供专业的企业级定制化服务,包括 API 聚合、流量管理、安全审计等功能,助力企业快速、安全地搭建 AI 应用体系。在价格方面,平台推出长期专属优惠,最低可享官方定价 5 折,大幅降低了高强度内容生成、数据分析和 AI 开发的成本门槛,让不同规模的用户都能以更经济的方式使用先进的 AI 技术。