← 返回 Blog

从 gemini-2.5-flash-lite 迁到 3.1-flash-lite-preview:API 参数变了哪些、思考等级怎么配、旧代码改几行?

2026 年 5 月,谷歌正式将 Gemini 3.1 Flash-Lite 转为全面可用(GA)状态,标志着轻量级大模型进入了全新的架构时代。与此前的 Gemini 2.5 Flash-Lite 不同,3.1 版本并非简单的功能补丁,而是从 Gemini 3.1 Pro 底层蒸馏精简而来的全新产品线,在推理能力、吞吐量和灵活性上均实现了质的飞跃。

GeminiGemini 3.1 Flash-Lite 迁移全指南

Gemini 3.1 Flash-Lite 迁移全指南:核心参数变化与生产环境平滑升级方案

2026 年 5 月,谷歌正式将 Gemini 3.1 Flash-Lite 转为全面可用(GA)状态,标志着轻量级大模型进入了全新的架构时代。与此前的 Gemini 2.5 Flash-Lite 不同,3.1 版本并非简单的功能补丁,而是从 Gemini 3.1 Pro 底层蒸馏精简而来的全新产品线,在推理能力、吞吐量和灵活性上均实现了质的飞跃。

对于广大开发者而言,这次迁移不是简单的版本号升级,而是一次底层架构的换代。本文将详细解析迁移过程中的核心参数变化、推理深度配置方法和代码修改要点,帮助大家实现生产环境的平滑过渡。

一、迁移必要性与官方时间线

(一)为什么必须迁移

Gemini 2.5 Flash-Lite 本质上是 2.5 系列的 “瘦身版”,而 Gemini 3.1 Flash-Lite 则继承了旗舰模型 3.1 Pro 的核心架构,在保持轻量特性的同时,推理能力大幅提升。第三方测试显示,其 GPQA Diamond 科学推理得分超过 80%,MMMU-Pro 多模态推理得分领先同级别竞品,真正实现了 “低价不低质”。

(二)停服时间注意事项

目前网络上流传着多个版本的旧模型停服时间表,包括 “gemini-2.5-flash-lite-preview-09-2025 将于 2026 年 3 月 31 日停服”“稳定版将于 2026 年 7 月 22 日下线” 等。需要特别提醒的是,这些日期均来自第三方追踪平台,不同区域、不同项目的停服时间可能存在差异。

最稳妥的做法是直接查看 Google Cloud Console 或 Vertex AI 中的 “配额与系统限制” 页面,或通过 API 返回的deprecatedshutdownDate字段获取准确信息。建议开发者不要等到最后期限,尽早完成路由切换和参数改造,避免因服务突然中断造成损失。

二、核心参数变化精准映射

本次迁移中,有三个关键参数发生了根本性变化,也是最容易导致 400/404 错误和成本暴增的原因。

(一)模型标识符(Model ID)更新

这是最基础也是最致命的变化。如果继续使用旧的模型 ID,所有请求将直接返回 404 错误。

表格

旧模型 ID(即将停用)新 GA 稳定版 ID(官方推荐)
gemini-2.5-flash-litegemini-3.1-flash-lite
gemini-2.5-flash-lite-preview-09-2025gemini-3.1-flash-lite

谷歌官方的 GA 模型 ID 通常不带任何日期或预览后缀。如果你的代码中还在使用带-preview或日期后缀的 ID,请立即切换到稳定版 ID,否则后续任何路由收敛都会导致请求失败。

(二)推理控制:从thinkingBudgetthinkingLevel

这是本次迁移最核心的变化,也是影响成本和性能的关键。

在 Gemini 2.5 系列中,我们使用thinkingBudget参数来控制推理深度,取值为 0(关闭思考)或 - 1(动态思考)。而在 3.1 Flash-Lite 中,这一参数被替换为语义化的档位控制thinkingLevel,需要放在generationConfig中配置。

thinkingLevel支持四个档位,分别对应不同的任务场景和成本:

表格

thinkingLevel 档位适用场景速度 / 成本评级
minimal实时翻译、数据清洗、纯格式提取★★★ 最快 / 最省
low客服自动回复、简单决策树、FAQ 路由★★ 较省
medium结构化抽取、中等复杂度逻辑问答★ 性价比甜区
high深度推理任务(不建议在 Lite 上常开)最慢 / 最贵

⚠️ 致命坑点提醒:如果请求中不显式声明thinkingLevel,大多数 API 路径会默认使用high档位。这意味着你以为在用 “轻量省钱” 的模型,实际上每条请求都在消耗最长的推理链和最多的 Token,最终账单可能会比预期高出 2-3 倍。

迁移铁律:生产环境中每条请求都必须显式指定thinkingLevel,永远不要依赖默认值。同时,thinkingBudgetthinkingLevel不能同时出现,否则 API 会直接返回 400 错误,而非优雅降级。

(三)成本变化与控制策略

Gemini 3.1 Flash-Lite 的官方定价为:每百万输入 Token 0.25 美元,每百万输出 Token 1.50 美元。与 2.5 Flash-Lite 相比,输入单价上涨约 2.5 倍,输出单价上涨约 3.75 倍。

但需要注意的是,成本暴增通常不是因为单价本身,而是因为默认high档位和更长的输出格式共同作用的结果。通过以下三个简单措施,可以有效控制成本:

  1. 根据任务类型合理设置thinkingLevel,绝大多数日常任务使用minimallow即可
  2. 显式设置maxOutputTokens,限制模型的输出长度
  3. 使用 JSON Schema 强制简洁输出,避免不必要的啰嗦

对于希望进一步降低使用成本的企业和开发者,UseAIAPI提供了极具竞争力的解决方案。作为专业的全球 AI 大模型服务平台,UseAIAPI 已同步支持 Gemini 3.1 Flash-Lite 及其他所有主流最新 AI 大模型,所有 API 调用费用最低可达官方价格的 50%。这意味着在相同的使用量下,企业可以节省一半以上的 AI 支出,尤其适合大规模批量推理和高并发场景。

三、代码修改示例:仅需改动几行

本次迁移不需要重构整个代码架构,只需修改模型 ID 和推理参数即可。以下是主流开发语言的迁移示例。

(一)Python SDK(google-genai)

旧代码(2.5 系列)

python

运行

import google.generativeai as genai

client = genai.GenerativeModel("gemini-2.5-flash-lite")
response = client.generate_content("Classify this sentiment: I love this product!")

新代码(3.1 系列)

python

运行

import google.generativeai as genai

client = genai.GenerativeModel("gemini-3.1-flash-lite")
response = client.generate_content(
    "Classify this sentiment: I love this product!",
    generation_config=genai.types.GenerationConfig(
        thinking_level="low",  # 关键:显式指定推理深度
        max_output_tokens=128   # 强烈建议:限制输出长度
    )
)

注意:SDK 中使用蛇形命名thinking_level,而 REST API 的 JSON 层使用驼峰命名thinkingLevel。使用 SDK 时请遵循官方文档,不要手动混用。

(二)REST API(curl)

bash

运行

curl https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-lite:generateContent \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [{"text": "Translate this to French: Hello world"}]
      }
    ],
    "generationConfig": {
      "thinkingLevel": "minimal",
      "maxOutputTokens": 200
    }
  }'

(三)LiteLLM 统一网关用户

如果你使用 LiteLLM 作为多模型统一网关,无需手动构造generationConfig,只需按照 LiteLLM 官方文档的 Gemini 适配器字段进行配置即可。LiteLLM 会自动将通用参数映射为 Gemini 的原生参数,避免双层覆盖问题。

四、生产环境迁移检查清单

为了确保迁移过程万无一失,请按照以下清单逐项检查:

  1. 清理旧路由:确认代码、网关、Nginx 缓存中没有硬编码任何旧的预览版模型 ID
  2. 替换参数:全局搜索并删除所有thinkingBudget字段,替换为显式的thinkingLevel
  3. 设置默认值:即使只想使用保守配置,也要明确写出thinking_level="low",禁止依赖默认值
  4. 灰度测试:先将 1%-5% 的镜像流量切到新模型,运行 24 小时,对比延迟 p95、错误率和 Token 消耗
  5. 锁定输出:为所有请求添加maxOutputTokens限制,防止模型过度生成
  6. 切换稳定 ID:最终使用控制台中显示的 GA 稳定版 ID,而非任何预览版 ID

结语

Gemini 3.1 Flash-Lite 的发布,将轻量级大模型的能力和性价比提升到了新的高度。虽然迁移过程中存在一些参数变化和潜在坑点,但只要掌握核心要点,仅需修改几行代码即可完成升级。

选择UseAIAPI作为 AI 服务提供商,不仅能够以官方半价的成本使用 Gemini 3.1 Flash-Lite 等所有主流大模型,还能获得专业的技术支持和定制化解决方案,帮助企业在享受最新 AI 技术红利的同时,最大限度地降低使用成本和运维复杂度。