← 返回 Blog

Gemini 3.1 Pro 实战接入:AI Studio → Vertex AI → 本地代码,一条龙跑通(附 thinking_level 调参陷阱)

2026 年 2 月 19 日,谷歌正式发布 Gemini 3.1 Pro 预览版。作为谷歌首个原生支持媒体时间轴定位和多文档并行推理的大模型,其在 SWE-bench Verified 基准测试中得分达到 80.6%,与 Claude Opus 4.6 处于同一梯队。而更具颠覆性的是它的极致性价比 —— 百万输入 token 仅需 2 美元,输出 token12 美元,价格仅为 Claude Opus 的四分之一左右。

GeminiGemini 3.1 Pro

给 Gemini 3.1 Pro 装上 “深度调节旋钮”:对开发者来说是件大好事

2026 年 2 月 19 日,谷歌正式发布 Gemini 3.1 Pro 预览版。作为谷歌首个原生支持媒体时间轴定位和多文档并行推理的大模型,其在 SWE-bench Verified 基准测试中得分达到 80.6%,与 Claude Opus 4.6 处于同一梯队。而更具颠覆性的是它的极致性价比 —— 百万输入 token 仅需 2 美元,输出 token12 美元,价格仅为 Claude Opus 的四分之一左右。

接下来,我们将从谷歌 AI Studio、Vertex AI 企业部署到本地代码集成,一步步带你掌握 Gemini 3.1 Pro 的正确使用方法,并重点拆解最容易导致成本飙升的 thinking_level 参数调参陷阱,帮你真正用好这款高性价比大模型。

一、AI Studio:最快上手的入口与 API 密钥获取

最快体验 Gemini 3.1 Pro 的渠道就是谷歌 AI Studio。打开aistudio.google.com,使用谷歌账号登录后,在模型下拉菜单中选择 “Gemini 3.1 Pro Preview”,即可立即使用免部署的聊天环境进行测试。

而更重要的一步是获取 API 密钥,为后续代码集成做准备:

  1. 在 AI Studio 左侧导航栏找到 “Get API key(获取 API 密钥)”
  2. 点击 “Create new key(新建密钥)”
  3. 选择一个谷歌云项目,几秒钟后即可生成密钥

⚡ 安全提示:AI Studio 提供的免费额度足够完成原型验证。拿到密钥后请第一时间存入环境变量,切勿硬编码在代码中,这是最基本的安全开发纪律。

bash

运行

export GEMINI_API_KEY="你的API_KEY"

二、Vertex AI:企业级生产部署的标准路径

如果项目需要上线生产环境或处理敏感数据,Vertex AI 是不可跳过的官方企业级方案。它提供了完整的身份认证、细粒度访问控制和全链路审计日志能力,为企业数据安全保驾护航。

首先进入谷歌云控制台,在 Vertex AI 板块开通 API 服务,选择或新建项目后,安装核心依赖包:

bash

运行

pip install --upgrade google-cloud-aiplatform

完成本地鉴权:

bash

运行

gcloud auth application-default login

准备就绪后,仅需几行 Python 代码即可发起模型调用:

python

运行

from vertexai.generative_models import GenerativeModel

model = GenerativeModel("gemini-3.1-pro-preview")
response = model.generate_content("用50个词解释LLM推理是怎么工作的")
print(response.text)

💡 实用建议:谷歌在 GitHub 上维护了官方的 generative-ai 代码仓库,里面包含大量可直接在 Vertex AI 上运行的示例笔记本和演示应用。首次接入时无需从零开始,直接克隆仓库参考官方示例即可大幅提升效率。

三、本地代码集成:一条最小可用的生产级链路

在 AI Studio 完成快速验证、Vertex AI 权限配置完毕后,下一步就是将模型集成到本地应用中。在 Gemini 3.1 Pro 的开发范式中,“本地” 通常指通过 SDK 调用云端 API,而非将模型权重部署到本地 GPU。

官方 Python SDK 调用方式

python

运行

import google.genai as genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3.1-pro-preview",
    contents="写一个安全解析CSV文件的Python脚本。",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_level="MEDIUM"
        )
    ),
)
print(response.text)

⚠️ 重要版本提示:新版 SDK 的包路径已从旧版的google.generativeai迁移至google.genai,配置体系也从GenerationConfig切换为GenerateContentConfig + ThinkingConfig。如果发现与旧教程内容不匹配,大概率是版本断层导致的。

Node.js 开发者可使用@google/genai包,遵循完全相同的调用逻辑。

必须提前预警的网络与兼容性问题

如果你的服务器部署在境内,直连谷歌服务可能会被阻断,有两个务实的解决方案:

  • 使用 Cloudflare Workers 搭建反代转发(免费额度每天 10 万次请求),将 API 流量中转出去
  • 将应用直接部署在海外云实例上(如 GCE、AWS VNet)

还有一个更简便的方案 —— 通过 OpenAI 兼容层接入。只需修改base_url和替换 API 密钥,就能让 Gemini 无缝接入 Cursor、Continue 等编辑器插件,现有代码几乎无需大幅修改:

python

运行

import openai

client = openai.OpenAI(
    api_key="YOUR_GEMINI_API_KEY",
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
)

四、thinking_level 陷阱:深度幻觉与成本黑洞的核心破解

开头提到的 “深度调节旋钮” 绝非锦上添花的功能,而是决定 Gemini 3.1 Pro 使用成本与效果的核心开关。

Gemini 3.1 Pro 引入了三级思考调控机制(Low/Medium/High),其核心升级不在于 “低” 和 “高” 两档,而在于新增的 Medium 平衡档。这三个档位直接绑定模型的输出质量、响应延迟和 token 开销:

表格

档位响应速度推理链深度典型适用场景成本特征
LOW(毫秒级)1-3 秒极短 / 接近零思考链日常问答、简单翻译、短文本生成、分类路由输出 token 消耗可降低 80% 以上,成本优势显著
MEDIUM(平衡档)3-10 秒约 8K tokens 推理预算代码审查、摘要提炼、常规数据分析、绝大多数生产任务全场景黄金档位 —— 质量满足需求,成本可控
HIGH(Deep Think Mini)数十秒32K+ tokens 推理链数学证明、竞赛级编程、需要多步自我验证的复杂推理后台静默消耗大量思考 token,按输出 token 统一计费

⚠️ 最危险的隐形坑:默认档位为 HIGH

很多开发者直接沿用 Gemini 3 Pro 时代的旧配置,没有主动设置 thinking_level 参数,而 Gemini 3.1 Pro 的默认档位是 HIGH。这意味着,哪怕只是让它做一个简单的翻译任务,它也会在后台运行一条数万 token 的推理链,你拿到的回复质量看似 “过分好”,但账单可能已经翻了十几倍。

而且 Medium 档在 Gemini 3 Pro 中根本不存在,直接迁移旧版本的 Think 配置会产生隐蔽的意外开支,不查看详细计费日志根本无法发现。

OpenAI 兼容层的 thinking 参数写法

如果通过兼容层而非官方 SDK 调用,需要通过extra_body透传思考配置:

python

运行

# LOW等效 —— 简单任务
response_low = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[{"role": "user", "content": "短翻译任务"}],
    extra_body={
        "thinking": {
            "type": "enabled",
            "budget_tokens": 1024
        }
    }
)

# MEDIUM等效 —— 代码审查/中等推理(★推荐作为默认档)
response_med = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[{"role": "user", "content": "做代码审查,中等推理深度"}],
    extra_body={
        "thinking": {
            "type": "enabled",
            "budget_tokens": 8192
        }
    }
)

# HIGH等效 —— 仅留给真正需要深度思考的任务
response_high = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[{"role": "user", "content": "复杂数学证明或大系统设计推理"}],
    extra_body={
        "thinking": {
            "type": "enabled",
            "budget_tokens": 32768
        }
    }
)

以上budget_tokens值对应三个档位的典型推理预算,可根据任务实际复杂度微调。给简单翻译任务开 HIGH 档,无异于花高薪聘请核物理学家去拧螺丝。

档位选择口诀

只需问自己一个问题:“这个任务需要人工思考多久?”

  • 日常编码、文案润色、简单查询 → LOW 或 MEDIUM 足够
  • 只有那些人工也需要思考 20 分钟以上的复杂任务,才值得用 HIGH 档

五、Context Cache:百万 Token 大上下文的成本利器

Gemini 3.1 Pro 将上下文窗口提升至 1M tokens,但 API 采用分级计价模式,长上下文成本会快速上升:

表格

上下文长度输入价格(百万 token)输出价格(百万 token)
≤200K tokens2 美元12 美元
>200K tokens4 美元18 美元

对于大代码仓库分析、长文档推理等典型大上下文场景,上下文缓存(Context Caching)是降低成本的关键。缓存命中的输入部分仅收取常规输入价格的 10%-20%,再加少量存储费用。如果你的提示词前缀(如整个代码库的目录树 + 核心文件内容)会反复出现,上下文缓存能帮你节省大量成本。

六、Gemini 3.1 Pro 避坑速查清单

表格

常见问题对应对策
默认 HIGH 档导致成本飙升除非任务需要深度推理,否则全部显式设置为 MEDIUM 或 LOW;警惕旧项目从 3 Pro 直接迁移到 3.1 Pro
system_instruction 超长被静默截断将核心指令放在前 2048 字符内,多余信息移至 user 消息中
temperature 参数设置不当代码生成用 0.3;创意写作控制在 0.85-1.2;超过 1.5 容易出现语义断裂和格式混乱
境内服务器直连被阻断使用 Cloudflare Workers 反代或部署在海外云实例
不确定如何配置 thinking 参数先用 MEDIUM 档跑一遍看结果,效果不佳再切 HIGH;批量任务绝对不要开 HIGH
找不到官方示例代码在 GitHub 搜索谷歌官方的 generative-ai 仓库,里面全是可直接运行的生产级示例
API 选型困惑小规模验证用 AI Studio 免费额度;生产环境用 Vertex AI(完整审计 + 权限管理)
输入包含图片时输出被截断每 100KB 图片会占用 128 tokens 的输出空间,记得给 max_output_tokens 预留足够余量

七、写在最后

把 Gemini 3.1 Pro 从 AI Studio 里的一条测试消息,集成到代码仓库的自动化流程中,只需要百来行代码。但考虑到三档思考深度的杠杆效应,花一点时间把参数调对,绝对是回报率极高的投入。

LOW/MEDIUM/HIGH 的选择不再是一个简单的开关,而是开发者对 “任务场景深度” 理解能力的真实映射。Gemini 3.1 Pro 把精细调优的权力交还给了开发者。用好这三档调节旋钮,省下的不只是运营成本,更是那种 “绝不用大炮打蚊子” 的工程师直觉。

想要第一时间体验 Gemini 3.1 Pro 的极致性价比,以及 Claude、GPT、DeepSeek 等全球主流 AI 大模型的强大能力?UseAIAPI为广大企业和开发者提供一站式稳定接入服务。平台全面覆盖全球热门 AI 大模型 API 接口,无需繁琐配置即可快速上手,同时还可根据企业个性化需求提供定制化解决方案,全程保障服务的稳定性与安全性。

在成本方面,UseAIAPI 推出了极具竞争力的专属优惠政策,所有模型 API 调用最低可享官方价格 5 折优惠,大幅降低企业在高强度代码生成、复杂推理任务、大文档处理等场景下的算力成本,让你无需为高昂的 AI 使用费用担忧,能够全身心投入到核心业务创新中。