useaiapi Blog · Gemini

Gemini 3.1 Flash Lite预览版发布：Google为大模型装上可调节“思考开关”

Gemini 3.1 Flash Lite预览版发布：Google为大模型装上可调节“思考开关”

2026 年重磅更新实现 363 tokens/s 峰值输出，自定义推理深度重构 AI 成本与效率逻辑

2026 年 3 月 3 日，Google 于深夜正式发布 Gemini 3.1 Flash Lite 预览版。

表面上，这是一场关于 AI 速度与价格的狂欢：模型峰值输出速度飙升至 363 tokens/s，输入定价低至每百万令牌 0.25 美元，输出定价 1.50 美元，较前代 Gemini 2.5 Flash 提速近 40%。

但本次更新最具行业冲击力的核心突破，藏在模型 API 的全新功能里 ——思考层级（thinking levels）。

AI 行业长期存在一个心照不宣的共识：大模型在处理 “1+1 等于几” 和 “证明黎曼猜想” 时，消耗的计算资源完全一致。

这种无差别的能耗模式，本质上是用火箭筒打蚊子，造成了大量算力浪费。

而 Gemini 3.1 Flash Lite 带来的最务实的改进，就是把 “模型该想多深” 的决定权，完整交到了开发者手中。

速度与精度：亮眼数据背后的架构核心

官方发布的性能数据，刷新了轻量级大模型的行业基准。

模型首字响应速度（TTFT）较 Gemini 2.5 Flash 提升 2.5 倍，整体输出速度提升 45%，在 Artificial Analysis 生成速度榜以 389 tokens/s 登顶。

基准测试表现同样超出预期：GPQA Diamond 得分 86.9%，MMMU Pro 得分 76.8%，[Arena.ai](Arena.ai) 的 Elo 得分 1432。

在 11 项主流基准测试中，该模型有 6 项超越了 GPT-5 mini 与 Claude 4.5 Haiku。

事实准确性测试中，差距更为显著：SimpleQA Verified 测试里，Flash Lite 以 43.3% 的准确率遥遥领先，前代 Gemini 2.5 Flash 仅为 28.1%，GPT-5 mini 更是只有 9.5%。

但在这些亮眼的数字之外，一个更值得探讨的核心问题是：一个轻量级模型，凭什么能在多项测试中超越体量更大的前代产品？

答案，藏在其搭载的 \\ 混合专家架构（MoE）\\ 里。

该架构的核心逻辑，是模型不会激活所有参数来回答每一个问题，只会调用与当前任务最相关的参数模块。

这就像查阅一个汉字，不需要把整座图书馆搬到书桌前。

这套架构，配合可自定义的思考层级功能，让模型在批处理翻译、内容审核等基础任务上走极简推理路线，仅在生成 UI 仪表盘、创建模拟环境等复杂场景中，才调动更深层的推理资源。

思考层级：让 AI 的算力消耗实现精准可控

经过一周的实测，Flash Lite 思考层级功能的核心价值，并非让 AI “变得更聪明”，而是让 AI “知道什么时候该变得更聪明”。

在处理高吞吐量翻译任务时，将思考深度调至最低，首字响应几乎无感知延迟。

对应的成本也同步降至最低：每百万令牌输入成本 0.25 美元，输出成本 1.50 美元，较 Gemini 3.1 Pro（输入 2 美元 / 百万令牌、输出 18 美元 / 百万令牌）的定价，便宜了近一个量级。

而在处理代码审查、UI 生成等复杂任务时，模型会主动拆解任务逻辑，分步完成深度思考后再输出内容。

其在 GPQA Diamond 测试中 86.9% 的高准确率，正是这套动态推理机制的成果。

传统大模型的推理逻辑是 “一视同仁”：无论任务难易，都消耗同等规模的算力。

Flash Lite 的推理逻辑是 “按需分配”：开发者可根据任务复杂度，动态分配模型的推理资源。

Latitude、Cartwheel、Whering 等早期企业用户的反馈，也印证了这套机制的优势：模型在高吞吐处理场景下效率表现极佳，同时在复杂指令处理上，保持了接近旗舰大模型的准确性。

这一功能带来的，是 AI 成本控制逻辑的结构性重构。

此前，企业只能提前预估月度 Token 消耗量做成本管控；现在，开发者可根据任务类型设置不同的思考层级，把预算精准花在高价值任务上。

这对需要大规模部署 AI 能力的团队而言，是一次颠覆性的成本优化机会。

横向对比：与竞品的核心差距

模型	输出速度（tokens/s）	输入价格（美元 / 百万令牌）	输出价格（美元 / 百万令牌）	GPQA Diamond 得分
Gemini 3.1 Flash Lite	363	0.25	1.50	86.9%
GPT-5 mini	71	—	2.00	82.3%
Claude 4.5 Haiku	108	—	5.00	73.0%
Gemini 2.5 Flash	249	0.30	2.50	82.8%

数据来源：Artificial Analysis 基准测试与官方公开定价

速度维度的差距最为悬殊。

Flash Lite 363 tokens/s 的输出速度，是 GPT-5 mini 的 5.1 倍，是 Claude 4.5 Haiku 的 3.4 倍，但定价仅为后者的四分之一。

多语言能力上，Flash Lite 在 MMLU 测试中以 88.9% 的得分登顶，超越了 Gemini 2.5 Flash 的 81.7%。

高难度 HLA 基准测试中，该模型得分 16%，虽与 Gemini 3.1 Pro 44.4% 的得分仍有差距，但结合其轻量化定位与亲民定价，这份成绩已远超行业预期。

还有一个值得关注的技术细节：Flash Lite 在处理 100 万 Tokens 上下文输入时，可生成 6.4 万 Tokens 的长回复，内容覆盖可执行代码与多模态内容。

模型的知识截止时间为 2025 年 1 月，虽非行业最新，但足以支撑绝大多数高吞吐量商用任务的需求。

获取渠道与实测体验

目前，Gemini 3.1 Flash Lite 仅以预览形式，通过两个官方渠道开放：开发者可通过 Google AI Studio 的 Gemini API 获取调用权限，企业用户可通过 Vertex AI 平台申请访问。

需要注意的是，该模型暂未对终端消费者开放，仅面向 API 调用场景。

实测过程中，我们在高、中、低三个思考层级，运行了同一套测试任务。

低思考层级下，翻译 1000 条电商商品描述，响应几乎零延迟，Token 消耗完全符合官方定价预期。

高思考层级下，生成复杂的气象仪表盘代码，模型会先完成 3-5 秒的深度思考再启动输出，最终生成的代码可开箱即用，完整包含实时数据抓取逻辑与交互图表功能。

这种可自定义的推理体验，就像驾驶手动挡汽车：你可以完全控制发动机的转速，但前提是你清楚知道什么时候该换挡。

行业总结：一场关于 AI 控制权的实验

Gemini 3.1 Flash Lite 的真正行业价值，从来不是更快的速度或更低的价格。

它的核心突破，是把 “AI 推理的控制权”，完整还给了开发者。

思考层级不是一个花哨的营销功能，而是一个结构性的成本控制工具。

它承认了一个行业长期忽略的基本事实：不是所有任务，都需要 AI 投入同等程度的智力与算力。

2026 年，整个 AI 行业还在比拼更大的上下文窗口、更高的基准测试得分时，Flash Lite 走出了一条完全不同的路径：让模型学会控制自己的能耗。

这个思路，或许才是 AI 工程化大规模落地的未来方向：不是制造更强大的算力怪兽，而是让怪兽知道，什么时候该全力发力，什么时候该收力节能。

全球 AI 大模型一站式接入服务

如需便捷落地全球主流 AI 大模型能力，UseAIAPI可提供全场景解决方案。

其服务覆盖 Gemini、Claude、ChatGPT、DeepSeek 等全球热门 AI 大模型的最新版本，同时提供企业级定制化接入服务，助力用户无忧落地 AI 能力。

价格方面，其优惠折扣最低可达官方定价的 50%，可大幅降低高负荷内容生成场景下的使用成本。

通过 UseAIAPI 统一接入全球主流 AI 大模型

如果你希望更低成本接入 Claude、Gemini、ChatGPT、DeepSeek 等模型，UseAIAPI 提供统一 API 网关、模型聚合、额度管理与企业级技术支持。

进入 useaiapi 控制台

Gemini 3.1 Flash Lite预览版发布：Google为大模型装上可调节“思考开关”

通过 UseAIAPI 统一接入全球主流 AI 大模型

相关阅读