解析预配吞吐量 PT：并非批发折扣，而是专属服务通道

在 AI 云服务领域，“预留资源”“订阅套餐” 等服务模式，很容易让用户下意识认为，这类服务等同于量大价优的批发折扣。但对于谷歌推出的 ** 预配吞吐量（Provisioned Throughput，简称 PT）** 而言，这种固有认知恰恰是最大误区。PT 的核心价值并非下调单次调用单价，而是为企业搭建起一条稳定可靠的专属运行通道。

一、核心逻辑：PT 保障优先级，不降低单价

根据谷歌云官方文档定义，预配吞吐量的运行逻辑十分清晰：企业提前承诺采购一定规模的算力资源，该资源以生成式 AI 扩缩单元（GSU）作为计量单位。作为交换，平台会为企业预留专属吞吐量，并赋予调用请求优先排队权限。简单来说，用户支付费用换取的是服务确定性与优先通行资格，而非 token 单价优惠。

与 PT 相对的是动态共享配额（Dynamic Shared Quota，简称 DSQ），也就是常规的按量付费模式。选择标准按需付费的用户，资源会汇入公共共享池。每当业务迎来流量高峰，共享池容易出现资源耗尽的情况，系统会返回 429 报错，企业还需要额外开发重试、退避机制来保障业务运转。

而预配吞吐量则相当于企业定期支付固定订阅费用，锁定长期稳定的吞吐能力，彻底规避高峰期资源争抢问题。下表清晰区分了三类主流计费模式的特点与适用场景：

表格

消费选项	计费规则	适用场景
预配吞吐量（PT）	按周、月、季度、年度签订固定费用订阅协议	线上实时应用、核心稳定负载，对服务等级协议（SLA）确定性要求高
标准按需付费	按照实际 token 消耗量乘以单价结算	业务量灵活波动、临时测试等通用场景
Flex/Batch 折扣套餐	离线批量任务可享受五折优惠	能够接受小幅延迟的大批量离线处理任务

谷歌官方多次明确强调，预配吞吐量并不是按量付费模式的批发打折版本，本质是为核心流量开辟的专用车道，单次调用的基础票价不会随之降低。各类官方指南中也提及，选择 PT 服务相比普通按需付费存在一定溢价，企业支付额外成本，换来的是稳定吞吐、更低响应延迟以及可精准预判的总体支出。

二、读懂 GSU：抽象容量单元，消耗标准因模型而异

预配吞吐量以 GSU（生成式 AI 扩缩单元）作为统一计量标准，使用前需要厘清三大关键规则，这也是合理规划资源、避免成本浪费的前提：

不同大模型的 GSU 消耗速率存在明显差异；
PT 配额按照项目、区域、模型版本进行划分，切换部署区域无法共用原有配额；
当期未使用完毕的吞吐量额度，无法累计、结转至下一周期。

我们可以将 1 个 GSU 理解为一个标准运力槽位：轻量级模型 Gemini 2.5 Flash Lite 如同小型车辆，单个槽位可支撑大量调用请求；而 Gemini 3 Pro 这类高性能模型相当于大型车辆，单个槽位仅能承载少量请求。倘若没有提前结合自身业务做负载测试、测算消耗速率，盲目采购 GSU，极易造成资源与资金的双重浪费。

以gemini-2.0-flash为例，结合官方测算标准，为大家演示完整的资源计算流程：

单个 GSU 可支持吞吐量：3360 tokens / 秒
业务场景：每秒 10 次请求，单次请求产生 5700 tokens，总流量为 57000 tokens / 秒
所需 GSU 数量：\(57000 \div 3360 \approx 16.96\)，实际需采购17 个 GSU

不同签约周期下，全球区域单个 GSU 定价、17 个 GSU 对应总费用以及性价比也各有区别：

表格

签约周期	单 GSU 周 / 月定价（全球区域）	17 个 GSU 总费用	性价比说明
1 周	1200 美元 / 周	20400 美元 / 周	价格最高，仅适合短期测试试错
1 个月	2700 美元 / 月	45900 美元 / 月	定价偏高，适合短期稳定业务
3 个月	2400 美元 / 月	40800 美元 / 月	相比月付节省约 11%，均衡之选
1 年	2000 美元 / 月	34000 美元 / 月	相比月付节省约 26%，长期使用最划算

需要特别注意，谷歌并未提供通用的 GSU 单价速查表，价格会随签约周期变化。同时官方公告明确，自 2026 年 7 月 1 日起，非全球部署区域的 GSU 定价将执行新标准。PT 拥有独立的计费体系，和常规 token 单价（2 美元 / 百万输入、12 美元 / 百万输出）互不通用，计算总成本时不能混为一谈。

三、签约规则与报价构成：周期选择决定成本与灵活性

目前 PT 支持四种签约周期：一周、一个月、三个月、一年。协议一旦签订，周期内无法中途取消或退费，仅可根据业务增长追加 GSU 数量。

签约周期是一把双刃剑：短期合约灵活性强，但单位成本更高；长期合约单价更优惠，却会锁定长期预算。企业需要先判断自身负载属于稳定常态流量，还是波动型流量，再敲定签约时长。此外，PT 服务仅对部分模型开放，采购前务必核对官方支持列表。

一份完整的 PT 报价，主要由五大模块构成：

承诺 GSU 数量：企业约定采购的扩缩单元总数，是计算费用的基础；
签约周期：分为周、月、季度、年度，直接决定单 GSU 单价；
目标模型与消耗率：不同模型消耗 GSU 的速度差距极大，必须结合实际业务精准预估；
确定性附加条款：约定合约期内不可解约、额度不结转等规则；
企业级叠加折扣：PT 本身不提供 token 单价折扣，大型企业可通过定制合同享受 15% 至 40% 的整体总价优惠。

PT 通用费用计算公式：总费用 = 单周期 GSU 单价 × 承诺 GSU 数量 × 签约周期。两套独立的计费体系，意味着不能用常规按量付费的思维评判 PT 性价比。

四、选型决策：按需匹配需求，选对服务模式

预配吞吐量有着明确的目标客群，两类企业选择该服务能发挥最大价值：

第一，面向线上实时对话机器人、智能体等生产级服务的企业。这类业务无法容忍共享池高峰期出现 429 报错、延迟波动等问题，对服务稳定性要求极高。

第二，有严格合规与审计需求的企业。固定订阅费用可实现预算百分百可控，便于财务审查与成本规划。

如果企业的核心诉求单纯是降低调用单价，那么 PT 并非理想选择，可优先搭配以下官方优惠方案降本：

承诺用量折扣（CUD）：通过承诺长期使用量，换取 token 单价折扣，最高降幅可达 46% 以上；
Batch API：离线批量任务专属通道，全场享受五折优惠；
上下文缓存：缓存命中后，输入 token 单价低至一折；
混合流量部署：使用 PT 承载基础稳态流量，突发溢出流量走标准或优先按量付费通道，平衡成本与稳定性。

总而言之，预配吞吐量的核心价值是专属通行通道与服务确定性，而非简单的低价批发。想要拿到真正的整体采购优惠，可依托企业定制合同实现。不同服务模式各有侧重，结合自身业务形态理性选择，才能实现稳定性与成本的最优平衡。

为帮助各类企业灵活选用全球主流 AI 大模型、搭配多样化优惠方案控制使用成本，UseAIAPI 打造了一站式大模型接入服务，全面支持 Gemini、Claude、ChatGPT、DeepSeek 等多款前沿模型。平台可根据业务场景，协助用户合理搭配预配吞吐量、批量任务、缓存等不同服务模式，同时提供企业级定制化服务，适配不同规模团队的部署需求。平台所有模型服务均可享受低至官方原价五折的优惠，大幅降低高强度 AI 调用带来的成本压力，让企业安心开展各类线上服务与离线任务。