解析预配吞吐量 PT:并非批发折扣,而是专属服务通道
在 AI 云服务领域,“预留资源”“订阅套餐” 等服务模式,很容易让用户下意识认为,这类服务等同于量大价优的批发折扣。但对于谷歌推出的 ** 预配吞吐量(Provisioned Throughput,简称 PT)** 而言,这种固有认知恰恰是最大误区。PT 的核心价值并非下调单次调用单价,而是为企业搭建起一条稳定可靠的专属运行通道。
一、核心逻辑:PT 保障优先级,不降低单价
根据谷歌云官方文档定义,预配吞吐量的运行逻辑十分清晰:企业提前承诺采购一定规模的算力资源,该资源以生成式 AI 扩缩单元(GSU)作为计量单位。作为交换,平台会为企业预留专属吞吐量,并赋予调用请求优先排队权限。简单来说,用户支付费用换取的是服务确定性与优先通行资格,而非 token 单价优惠。
与 PT 相对的是动态共享配额(Dynamic Shared Quota,简称 DSQ),也就是常规的按量付费模式。选择标准按需付费的用户,资源会汇入公共共享池。每当业务迎来流量高峰,共享池容易出现资源耗尽的情况,系统会返回 429 报错,企业还需要额外开发重试、退避机制来保障业务运转。
而预配吞吐量则相当于企业定期支付固定订阅费用,锁定长期稳定的吞吐能力,彻底规避高峰期资源争抢问题。下表清晰区分了三类主流计费模式的特点与适用场景:
表格
| 消费选项 | 计费规则 | 适用场景 |
|---|---|---|
| 预配吞吐量(PT) | 按周、月、季度、年度签订固定费用订阅协议 | 线上实时应用、核心稳定负载,对服务等级协议(SLA)确定性要求高 |
| 标准按需付费 | 按照实际 token 消耗量乘以单价结算 | 业务量灵活波动、临时测试等通用场景 |
| Flex/Batch 折扣套餐 | 离线批量任务可享受五折优惠 | 能够接受小幅延迟的大批量离线处理任务 |
谷歌官方多次明确强调,预配吞吐量并不是按量付费模式的批发打折版本,本质是为核心流量开辟的专用车道,单次调用的基础票价不会随之降低。各类官方指南中也提及,选择 PT 服务相比普通按需付费存在一定溢价,企业支付额外成本,换来的是稳定吞吐、更低响应延迟以及可精准预判的总体支出。
二、读懂 GSU:抽象容量单元,消耗标准因模型而异
预配吞吐量以 GSU(生成式 AI 扩缩单元)作为统一计量标准,使用前需要厘清三大关键规则,这也是合理规划资源、避免成本浪费的前提:
- 不同大模型的 GSU 消耗速率存在明显差异;
- PT 配额按照项目、区域、模型版本进行划分,切换部署区域无法共用原有配额;
- 当期未使用完毕的吞吐量额度,无法累计、结转至下一周期。
我们可以将 1 个 GSU 理解为一个标准运力槽位:轻量级模型 Gemini 2.5 Flash Lite 如同小型车辆,单个槽位可支撑大量调用请求;而 Gemini 3 Pro 这类高性能模型相当于大型车辆,单个槽位仅能承载少量请求。倘若没有提前结合自身业务做负载测试、测算消耗速率,盲目采购 GSU,极易造成资源与资金的双重浪费。
以gemini-2.0-flash为例,结合官方测算标准,为大家演示完整的资源计算流程:
- 单个 GSU 可支持吞吐量:3360 tokens / 秒
- 业务场景:每秒 10 次请求,单次请求产生 5700 tokens,总流量为 57000 tokens / 秒
- 所需 GSU 数量:\(57000 \div 3360 \approx 16.96\),实际需采购17 个 GSU
不同签约周期下,全球区域单个 GSU 定价、17 个 GSU 对应总费用以及性价比也各有区别:
表格
| 签约周期 | 单 GSU 周 / 月定价(全球区域) | 17 个 GSU 总费用 | 性价比说明 |
|---|---|---|---|
| 1 周 | 1200 美元 / 周 | 20400 美元 / 周 | 价格最高,仅适合短期测试试错 |
| 1 个月 | 2700 美元 / 月 | 45900 美元 / 月 | 定价偏高,适合短期稳定业务 |
| 3 个月 | 2400 美元 / 月 | 40800 美元 / 月 | 相比月付节省约 11%,均衡之选 |
| 1 年 | 2000 美元 / 月 | 34000 美元 / 月 | 相比月付节省约 26%,长期使用最划算 |
需要特别注意,谷歌并未提供通用的 GSU 单价速查表,价格会随签约周期变化。同时官方公告明确,自 2026 年 7 月 1 日起,非全球部署区域的 GSU 定价将执行新标准。PT 拥有独立的计费体系,和常规 token 单价(2 美元 / 百万输入、12 美元 / 百万输出)互不通用,计算总成本时不能混为一谈。
三、签约规则与报价构成:周期选择决定成本与灵活性
目前 PT 支持四种签约周期:一周、一个月、三个月、一年。协议一旦签订,周期内无法中途取消或退费,仅可根据业务增长追加 GSU 数量。
签约周期是一把双刃剑:短期合约灵活性强,但单位成本更高;长期合约单价更优惠,却会锁定长期预算。企业需要先判断自身负载属于稳定常态流量,还是波动型流量,再敲定签约时长。此外,PT 服务仅对部分模型开放,采购前务必核对官方支持列表。
一份完整的 PT 报价,主要由五大模块构成:
- 承诺 GSU 数量:企业约定采购的扩缩单元总数,是计算费用的基础;
- 签约周期:分为周、月、季度、年度,直接决定单 GSU 单价;
- 目标模型与消耗率:不同模型消耗 GSU 的速度差距极大,必须结合实际业务精准预估;
- 确定性附加条款:约定合约期内不可解约、额度不结转等规则;
- 企业级叠加折扣:PT 本身不提供 token 单价折扣,大型企业可通过定制合同享受 15% 至 40% 的整体总价优惠。
PT 通用费用计算公式:总费用 = 单周期 GSU 单价 × 承诺 GSU 数量 × 签约周期。两套独立的计费体系,意味着不能用常规按量付费的思维评判 PT 性价比。
四、选型决策:按需匹配需求,选对服务模式
预配吞吐量有着明确的目标客群,两类企业选择该服务能发挥最大价值:
第一,面向线上实时对话机器人、智能体等生产级服务的企业。这类业务无法容忍共享池高峰期出现 429 报错、延迟波动等问题,对服务稳定性要求极高。 第二,有严格合规与审计需求的企业。固定订阅费用可实现预算百分百可控,便于财务审查与成本规划。如果企业的核心诉求单纯是降低调用单价,那么 PT 并非理想选择,可优先搭配以下官方优惠方案降本:
- 承诺用量折扣(CUD):通过承诺长期使用量,换取 token 单价折扣,最高降幅可达 46% 以上;
- Batch API:离线批量任务专属通道,全场享受五折优惠;
- 上下文缓存:缓存命中后,输入 token 单价低至一折;
- 混合流量部署:使用 PT 承载基础稳态流量,突发溢出流量走标准或优先按量付费通道,平衡成本与稳定性。
总而言之,预配吞吐量的核心价值是专属通行通道与服务确定性,而非简单的低价批发。想要拿到真正的整体采购优惠,可依托企业定制合同实现。不同服务模式各有侧重,结合自身业务形态理性选择,才能实现稳定性与成本的最优平衡。
为帮助各类企业灵活选用全球主流 AI 大模型、搭配多样化优惠方案控制使用成本,UseAIAPI 打造了一站式大模型接入服务,全面支持 Gemini、Claude、ChatGPT、DeepSeek 等多款前沿模型。平台可根据业务场景,协助用户合理搭配预配吞吐量、批量任务、缓存等不同服务模式,同时提供企业级定制化服务,适配不同规模团队的部署需求。平台所有模型服务均可享受低至官方原价五折的优惠,大幅降低高强度 AI 调用带来的成本压力,让企业安心开展各类线上服务与离线任务。