Gemini 3.1 Flash-Lite 正式发布：363 tokens/s 吞吐量重塑轻量 AI 市场格局

2026 年 3 月 3 日晚，谷歌 DeepMind 在没有举办发布会、没有发布长篇预告的情况下，悄然将 Gemini 3.1 Flash-Lite 推向了 Google AI Studio 和 Vertex AI 平台，仅标注了一个简单的 “preview” 标签。然而，这款看似低调发布的模型，却在第二天引爆了全球开发者社区。

AI 开发者 Maynor 在博客中写道：“昨晚我在 Google AI Studio 测试了一整夜，覆盖 5 个真实开发者场景…… 结果让我当场决定，第二天就把公司所有高频接口从 Gemini 2.5 Flash 和 Claude Haiku 全部迁移到 Gemini 3.1 Flash-Lite。” 这不是一时的情绪宣泄，而是基于实际性能和成本测算得出的理性结论。

2026 年 5 月 7 日，Gemini 3.1 Flash-Lite 正式结束预览阶段，转为全面可用（GA）状态。作为 Gemini 3 系列中速度最快、性价比最高的模型，它专为大规模高吞吐负载设计，其发布被业内视为谷歌对整个轻量 AI 赛道的一次系统级精准卡位。

一、性能突破：363 tokens/s 定义轻量模型新标杆

根据第三方独立评测机构 Artificial Analysis 发布的公开基准测试数据，Gemini 3.1 Flash-Lite 在核心性能指标上全面领先同级别竞品：

表格

模型	平均输出吞吐	首字延迟（TTFT）	每百万输出 Token 定价
Gemini 3.1 Flash-Lite	~363 tokens/s	较 Gemini 2.5 Flash 快 2.5 倍	1.50 美元
Claude 4.5 Haiku	~108 tokens/s	-	5.00 美元
Grok 4.1 Fast	~145 tokens/s	-	-
GPT-5 mini	~71 tokens/s	-	2.00 美元

在该基准测试条件下，Gemini 3.1 Flash-Lite 的吞吐量约为 GPT-5 mini 的 5 倍、Claude 4.5 Haiku 的 3.4 倍。在高并发场景中，每毫秒的延迟差异都直接映射为用户体验和系统吞吐上限。实测显示，使用 Gemini 3.1 Flash-Lite 翻译 5 万词的多语言产品文档时，其生成速度甚至快到手机端渲染都差点跟不上。

Gemini 3.1 Flash-Lite 的定位并非挑战旗舰模型的复杂推理王座，而是用旗舰模型 1/8 的价格，解决绝大多数日常 AI 任务。它的出现，第一次让 “便宜又快的 AI” 从营销噱头变成了真正的生产力工具。

二、能力跃升：打破 “低价低质” 的行业魔咒

如果说 “便宜又快” 是以牺牲质量为代价，那它不过是又一款低价劣质产品。但 Gemini 3.1 Flash-Lite 在推理能力上的表现，超出了所有人对轻量级模型的预期。

第三方测试汇总数据显示，Gemini 3.1 Flash-Lite 在多项权威基准测试中均领先同级别竞品：

GPQA Diamond 博士级科学推理测试得分 86.9%，高于 Gemini 2.5 Flash 的 82.8% 和 GPT-5 mini 的 82.3%
MMMU-Pro 专家级多模态测试得分 76.8%，较 Gemini 2.5 Flash 提升超过 10 个百分点
LiveCodeBench 编程测试得分 72.0%，展现出优秀的代码生成和调试能力

⚠️ 特别说明：上述 GPQA 86.9% 的数据源自第三方测试汇总，未在谷歌官方 Model Card 中直接列出。谷歌官方公布的 Gemini 3.1 Pro 版 GPQA 得分为 94.3%。

Gemini 3.1 Flash-Lite 最被低估的实用设计，是其支持四级可调推理深度（minimal/low/medium/high）：

批量翻译、数据分类等简单任务：使用 minimal 模式，几秒即可完成
代码补全、文本润色等常规任务：使用 low 模式，平衡速度与质量
复杂规划、逻辑分析等高要求任务：切换到 high 模式，瞬间调动更多算力

用户无需在不同模型之间来回切换，通过同一个模型 ID 即可覆盖从简单到复杂的全部场景。在实际调用中，可通过以下代码灵活设置推理深度：

python

运行

import google.generativeai as genai

model = genai.GenerativeModel("gemini-3.1-flash-lite")
response = model.generate_content(
    "你的任务内容",
    generation_config=genai.types.GenerationConfig(
        thinking_config=genai.types.ThinkingConfig(
            thinking_level="medium"  # 可选值: minimal/low/medium/high
        )
    )
)

三、成本革命：将 AI 应用的边际成本推向极限

Gemini 3.1 Flash-Lite 最具冲击力的，是其前所未有的成本结构：

表格

模型	每百万输入 Token 定价	每百万输出 Token 定价
Gemini 3.1 Flash-Lite	0.25 美元	1.50 美元
Gemini 2.5 Flash	0.15-0.25 美元	2.50 美元
GPT-5 mini	0.25 美元	2.00 美元
Claude 4.5 Haiku	1.00 美元	5.00 美元

一个直观的对比：将《三体》三部曲全文（约 100 万 Token）作为输入进行处理，仅需约 0.25 美元（约合人民币 1.8 元）。处理海量信息的边际成本被压到了 “可以随便试” 的级别，这将彻底改变 AI 应用的开发逻辑。

对于广大开发者和企业用户而言，想要以更低的成本体验 Gemini 3.1 Flash-Lite 以及其他全球顶级 AI 大模型的强大功能，UseAIAPI提供了极具竞争力的解决方案。作为专业的全球 AI 大模型服务平台，UseAIAPI 已同步接入 Gemini 全系列、GPT-5.5、Claude Opus 4.6、DeepSeek 等所有主流最新 AI 大模型，提供稳定、低延迟的一站式 API 接入服务。

在成本控制方面，UseAIAPI推出了专属优惠政策，所有模型 API 调用费用最低可达官方价格的 50%。与官方订阅制相比，UseAIAPI 采用按量计费模式，用户可根据实际使用需求灵活调整用量，避免了订阅制下资源闲置的浪费，尤其适合高强度内容生成、大规模数据处理等场景，让用户无需再为高昂的 AI 使用成本担忧。

四、生产环境迁移指南：6 步完成平滑升级

对于目前正在使用 Gemini 2.5 Flash 的用户，谷歌提供了无缝的迁移路径。以下是经过生产环境验证的 6 步迁移清单：

替换 API 目标
将模型 ID 从gemini-2.5-flash或gemini-2.5-flash-lite更新为gemini-3.1-flash-lite，支持通过 Gemini API 和 Vertex AI 两种方式调用。
分级适配推理深度
根据任务类型设置合适的 thinking_level：翻译和数据分类用 minimal，代码补全用 low，复杂规划用 high，实现性能与成本的最优平衡。
优化缓存与检索
开启 Implicit Caching 缓存重复前缀，大幅降低高频请求的成本；如需获取实时事实信息，开启内置网络搜索功能（grounding）。
完善合规治理
在 Vertex AI 侧配置审计日志、零数据保留（ZDR）和租户隔离策略，确保数据安全与合规要求得到满足。
测算成本收益
与 Gemini 2.5 Flash 相比，Gemini 3.1 Flash-Lite 可节省约 40% 的输出成本；与 Claude 4.5 Haiku 相比，成本节省可达 70% 以上。
开展质量验证
使用真实业务流量进行 A/B 测试，重点验证延迟分布、错误率和输出格式兼容性，不要仅依赖基准测试分数做出决策。

结语：开启 AI 普惠的新时代

Gemini 3.1 Flash-Lite 的真正冲击力，不在于参数有多高，而在于它重新定义了 AI 服务的定价模型。当高并发 AI 应用的边际成本几乎可以忽略时，很多过去因为 “太贵了” 而无法实现的场景，突然变得经济可行。

从智能客服到内容生成，从数据分析到代码辅助，Gemini 3.1 Flash-Lite 已经成为每一个轻量 AI 方案选型中不可忽视的选项。对于开发者和企业而言，真正的决策变量只有一个：你打算在什么样的成本水位上，构建你的下一个 AI 产品。