← 返回 Blog

别把它当聊天模型了:Flash-Lite + Antigravity + Computer Use API 三线齐发,谷歌的赌注是"无界面自动化"

2026 年谷歌 I/O 开发者大会上,一段特殊的技术演示引发全球开发者关注:集成开发环境中无需人工敲击键盘,多个 AI 智能体自动完成文件创建、终端命令执行、浏览器操作等全流程工作,仅用 12 小时便从零搭建出可运行经典游戏的完整操作系统,整体成本不足 1000 美元。 这场演示背后,折射出谷歌对人工智能发展路径的全新判断 ——AI 的核心价值远不止于对话框内的问答交互,而是走向脱离传统交互界面的自主计算机操作。同期落地的 Gemini 3.1 Flash-Lite、Antigravity 2.0 与 Computer Use API 三条产品线,技术路径彼此协同,共同指向 “无界面自动化” 这一核心赛道。

GeminiGemini 3.1 Pro谷歌布局无界面自动化 AI 新赛道

深度观察|三大产品线协同落地 谷歌布局无界面自动化 AI 新赛道

2026 年谷歌 I/O 开发者大会上,一段特殊的技术演示引发全球开发者关注:集成开发环境中无需人工敲击键盘,多个 AI 智能体自动完成文件创建、终端命令执行、浏览器操作等全流程工作,仅用 12 小时便从零搭建出可运行经典游戏的完整操作系统,整体成本不足 1000 美元。

这场演示背后,折射出谷歌对人工智能发展路径的全新判断 ——AI 的核心价值远不止于对话框内的问答交互,而是走向脱离传统交互界面的自主计算机操作。同期落地的 Gemini 3.1 Flash-Lite、Antigravity 2.0 与 Computer Use API 三条产品线,技术路径彼此协同,共同指向 “无界面自动化” 这一核心赛道。

一、Flash-Lite:筑牢自动化场景的低成本算力底座

第一条产品线是 Gemini 3.1 Flash-Lite。该模型于 2026 年 3 月以预览版形态推出,5 月加速推进正式商用进程。其官方定价为输入 token 每百万 0.25 美元、输出 token 每百万 1.5 美元,输入成本约为同定位竞品的四分之一,输出成本不足三分之一。

能力层面,该模型上下文窗口扩容至 100 万 token,可一次性容纳《三体》三部曲全文仍有富余;实测输出速度达每秒 363 至 381 token,首 token 响应延迟较上一代 2.5 Flash 提升 2.5 倍,整体吞吐性能提升约 45%。在能力表现上,其在 GPQA Diamond 博士级科学问答测试中得分达 86.9%,文本、图像、音频、视频一体化的多模态理解能力,甚至超过了参数规模更大的上代旗舰模型。

一款兼具低成本、高速度、强能力的轻量模型,构成了谷歌面向自动化场景的算力底座。大规模自动化任务需要持续的算力支撑,极致的性价比正是这类场景落地的核心前提。

二、Antigravity 2.0:打造智能体统一调度中枢

第二条产品线是 Antigravity 2.0,也是本次 I/O 大会的核心亮点之一。谷歌官方代码实验室将其明确定位为 “智能体优先” 平台:用户向智能体下达任务指令后,系统可自主推进执行,必要时向用户申请权限,任务完成后自动反馈结果。谷歌正式将其从 “AI 编程开发工具” 升级为通用智能体工作平台,核心架构分为三层:

  • 桌面应用层:作为智能体交互的中央枢纽,可同时协调多智能体并行工作,管理后台自动化任务;
  • 命令行工具层:面向重度终端开发者提供命令行操作入口,官方建议原 Gemini CLI 用户迁移至该体系;
  • SDK 与托管 API 层:支持编程接入与云端托管智能体,单次 API 调用即可启动隔离的 Linux 环境、完整推理智能体与工具调用能力,任务状态、文件数据可跨会话持久化。

底层架构上,该平台将传统的 “工作区” 概念升级为更灵活的项目模型,单个项目可对应多个文件夹,分别配置独立的智能体参数与权限边界;同时内置异步任务管理、定时调度功能,以及多种快捷指令提升操作可控性。

如果说 Flash-Lite 提供了算力动力,Antigravity 2.0 就是整套体系的调度中枢,将底层的廉价算力转化为可编程、可管理、可审计的智能体动作流。

三、Computer Use API:赋予智能体图形界面交互能力

第三条产品线最容易被忽略,却具备最核心的变革价值 ——Computer Use 计算机使用能力。

谷歌基于 Gemini 的视觉理解与推理能力,打造了专门的计算机使用模型,核心逻辑是让 AI 智能体像人类一样与图形界面交互:填写表单、点击下拉菜单、设置筛选条件,甚至完成登录后的会话操作。该能力以工具形式集成于 Gemini API 中,标识为"type": "computer_use_preview",遵循 “界面截图→推理决策→输出点击 / 输入 / 滚动等操作指令→执行动作→获取新截图反馈” 的循环逻辑,直至任务完成或触发安全终止机制。

谷歌也明确了当前的能力边界:现阶段主要针对浏览器内操作做优化,暂未针对桌面操作系统级别的控制做深度适配。与同类产品相比,其覆盖范围相对收窄,但部署门槛也更低。

如果说 Flash-Lite 是智能体的 “大脑”、Antigravity 是 “神经调度系统”,Computer Use API 就是智能体的 “双手”——AI 不再局限于在对话框中输出文字结果,而是可以直接操作屏幕上的图形界面,完成真实的业务操作。

四、三线协同形成闭环 重构 AI 交互与算力范式

三条产品线组合在一起,谷歌的技术布局便清晰呈现:Flash-Lite 供给低成本大算力,Antigravity 2.0 负责任务编排与智能体调度,Computer Use API 承担界面交互执行。三者共同构成了 “感知 — 决策 — 执行” 的完整技术闭环,其目标不是打造体验更好的聊天机器人,而是搭建一套 AI 自主操作计算机的完整基础设施。

谷歌首席执行官皮查伊在 I/O 大会上明确提出,公司的核心布局聚焦模型、编码、智能体三大领域。数据层面,谷歌披露其平台每月处理的 token 量已达约 32 万亿,对应每分钟约 19 亿 token;资本支出规模达到 1800 至 1900 亿美元量级。这些数据的底层逻辑高度一致:当 AI 可以跳过对话框直接操作计算机,算力消耗将从 “对话级” 跃升至 “作业级”—— 智能体的每一次点击、每一次页面渲染、每一次文件操作,背后都对应着真实的算力消耗。

结语

衡量 AI 模型的标准,正在跳出 “对话能力强弱、跑分分数高低” 的传统框架。谷歌押注的从来不是更优质的问答体验,而是无界面自动化的未来:AI 不再只是回答用户的问题,而是替用户操作计算机、编写代码、部署应用、管理项目。传统的对话框交互正在逐步退居次要位置,取而代之的是在后台自主运转、完成具体任务的智能体体系。

从 “告诉 AI 怎么做” 到 “告诉 AI 做什么”,三条产品线同向发力,指向同一个产业未来:自然语言将成为最高级的操作指令,中间的执行环节将由 AI 自主完成。

对于希望跟进前沿 AI 能力、落地自动化业务场景的企业与开发者而言,稳定、高性价比的模型接入渠道是技术落地的重要前提。UseAIAPI 作为一站式全球 AI 模型接入服务平台,已全面覆盖 Gemini、Claude、GPT、DeepSeek 等全球主流热门大模型,可为用户提供低延迟、高稳定的接口调用服务,同时支持企业级定制化解决方案,匹配不同业务场景的接入、安全与运维需求,帮助企业省去多厂商对接、接口适配、日常运维的繁琐流程,快速将前沿 AI 能力融入业务体系。

在使用成本方面,平台推出了极具竞争力的优惠政策,模型调用价格最低可享官方定价的 50%,能够大幅降低高频自动化任务、大规模智能体部署场景下的算力消耗成本,让企业在探索无界面自动化、智能体落地等前沿场景时,无需为算力成本顾虑,可更专注于业务创新与核心价值提升。