← 返回 Blog

从对话式到行动式:谷歌把 Gemini Spark 塞进 Cloud VM 让它 24/7 活着的底层逻辑——这不是功能更新,是对 OpenClaw/Computer Use 路线的正面回击

OpenClaw—— 那只一夜之间让 Mac mini M4 全网断货的开源 AI 智能体,用 36 万 GitHub 星标向世界证明:用户要的不是一个只会聊天的 AI,而是一个知道怎么干活的 AI。几乎同一时期,行业另外两大巨头也亮出了自己的底牌:Anthropic 在 2026 年 3 月 23 日正式将电脑操控(Computer Use)功能集成进 Claude Code 和 Cowork 产品,让 Claude 能像人一样看屏幕、移鼠标、点按钮、翻网页,但每一步操作都要先征得用户明确许可;而谷歌则直接走出了第三条路,推出 Gemini Spark—— 它不跑在用户的电脑上,而是运行在谷歌云的专属虚拟机里,即使用户合上笔记本、锁屏关机,它依然在后台持续工作。

GeminiAI Agent 三大路线同台竞技

AI Agent 三大路线同台竞技 行业从对话时代迈向执行时代

本地、沙箱、云端三种模式并存 信任模型成核心竞争分水岭

OpenClaw—— 那只一夜之间让 Mac mini M4 全网断货的开源 AI 智能体,用 36 万 GitHub 星标向世界证明:用户要的不是一个只会聊天的 AI,而是一个知道怎么干活的 AI。几乎同一时期,行业另外两大巨头也亮出了自己的底牌:Anthropic 在 2026 年 3 月 23 日正式将电脑操控(Computer Use)功能集成进 Claude Code 和 Cowork 产品,让 Claude 能像人一样看屏幕、移鼠标、点按钮、翻网页,但每一步操作都要先征得用户明确许可;而谷歌则直接走出了第三条路,推出 Gemini Spark—— 它不跑在用户的电脑上,而是运行在谷歌云的专属虚拟机里,即使用户合上笔记本、锁屏关机,它依然在后台持续工作。

三条技术路线,指向同一个行业命题:AI 正在从 "回答问题的回答者",进化为 "完成任务的执行者"。但三条路线选择了截然不同的方向,其背后是对 "信任" 二字完全不同的理解。

一、运行位置决定一切 三套截然不同的信任模型

AI 智能体 "在哪运行" 这个看似简单的问题,实际上定义了三套完全不同的信任体系和安全边界。

1. OpenClaw:本地最高权限 安全责任完全交给用户

OpenClaw 的本质是一个运行在本地 Node.js 环境的开源框架,通过 API 接入各家大模型,将自然语言指令翻译成鼠标、键盘、浏览器控制和文件系统操作。它的使用成本是用户的电费和硬件开销,而安全责任也完全由用户自己承担。

国家网络安全通报中心(CNCERT)发布的风险预警明确指出,OpenClaw 的默认配置 "极其脆弱":默认绑定 0.0.0.0:18789 端口、远程访问无需账号认证、敏感信息明文存储、公网暴露比例极高,同时存在多轮对话可修改行为、插件投毒、提示词注入等连锁安全风险。一旦攻击者找到入口,就可能获得整台机器的完全控制权。

这不是程序漏洞,而是设计上的固有取舍:它追求的是 "像主人一样" 的最高操作权限和极致执行效率,代价是将安全风险敞口也开到了最大。

2. Anthropic Computer Use:本地执行 每一步都套上缰绳

Anthropic 的选择体现了大厂的克制与平衡:

  • 同样运行在用户的 Mac 或电脑上(需要保持 Claude Desktop 客户端开启),但每一步敏感操作前都会弹出确认窗口;
  • 对于 Gmail、Slack、日历等有官方连接器的应用,走安全 API 捷径;没有连接器的应用,则降级到 "看屏幕 + 鼠标点击" 的通用操控模式;
  • 对投资、加密货币、敏感数据处理类应用默认禁用,并明确提醒用户:AI 会截屏、会处理所有它看到的网页内容,因此提示词注入防护是核心安全问题。

它的信任模型可以概括为:信任用户能够做出正确判断,但绝不让 AI 直接握住刀柄。执行权最终掌握在用户手里,AI 在递出工具前一定会先问一句。

3. Gemini Spark:云端运行 把引擎移出用户设备

谷歌的转向最为彻底,它从根本上改变了 AI 智能体的运行模式:

  • Gemini Spark 基于 Gemini 3.5 Flash 构建,全程运行在谷歌云的专属虚拟机中,用户关机它也不会停止工作;
  • 用户不需要让自己的电脑 24 小时开机,不需要在本地配置复杂的 Node.js 依赖,也不用把 API 密钥散落在本地文件中;
  • 发送邮件、涉及支付等高风险动作仍然需要用户确认,但任务引擎的主体已经完全移出了用户的个人设备;
  • 入口嵌入在 Gemini App 中,未来还将集成进 Chrome 浏览器和 Android 系统的 Halo 智能体状态可视化入口。

正如谷歌高管 Josh Woodward 所言:"使用它的感觉,就像把任务往身后一扔,Spark 会接住它、帮你完成。"

二、三大路线核心差异对比

为了更清晰地展示三条路线的区别,我们从多个维度进行了对比:

表格

对比维度OpenClawAnthropic Computer UseGemini Spark
运行位置用户本地机器用户本地机器谷歌云专属虚拟机
权限哲学最大权限、无强制确认、效率至上本地执行 + 逐步许可 + 沙箱隔离 + 禁用清单云端执行 + 关键操作回退用户确认
安全兜底完全依赖用户自行加固(默认配置安全性极低)许可界面 + 禁用清单 + 提示词注入防护引擎隔离 + 谷歌统一 IAM 身份认证 + 全流程审计
适用人群技术极客、开发者、愿意自建安全体系的用户企业知识工作者、需要受控本地执行环境的场景普通大众用户、追求低摩擦使用体验的人群

CNCERT 的预警其实从侧面说明了一个事实:最高权限模式加默认弱配置,天然就是大规模网络攻击的理想目标。OpenClaw 的爆火不是因为安全,而是因为它带来了 "所说即所做" 的极致执行体验。但在这个领域,效率和安全性天然存在着难以调和的矛盾。

三、三种定位 满足不同用户需求

三条路线没有绝对的优劣之分,它们分别对应着三类不同的用户和使用场景:

  • OpenClaw 是开源社区为技术爱好者打造的 "全栈打工人",它给予用户最大的自由度和控制权,同时也要求用户承担相应的安全责任;
  • Anthropic Computer Use 是企业级 AI 智能体的 "安全员",它能干很多事,但每一步都让你签字确认,在合规和效率之间找到了平衡点;
  • Gemini Spark 是谷歌递给十亿普通用户的 "傻瓜式数字员工",它不折腾本地环境,不卖硬件情怀,卖的是 "把任务交出去" 的松弛感。

智能体的引擎归谁所有,最终决定了 AI 是 "你的工具" 还是 "别人的平台"。

四、行业终局:竞争核心转向运行基底控制权

在 2026 年微软 Build 开发者大会上,微软将 Windows 的未来叙事定义为 "AI 智能体操作系统"。这其实为三条路线的竞争写下了共同的注脚:谁控制了 AI 智能体的运行基底 —— 无论是本地设备、沙箱化本地环境还是云端虚拟机,谁就捏住了 AI 时代基础设施的门票。

OpenClaw 把基底分散到了每一个用户的设备上,这是最自由的模式,也是最不可控的模式;Anthropic 把基底夹在沙箱隔离与许可控制之间,这是最合规的模式,但也是用户摩擦最大的模式;谷歌把基底种进了自家的云虚拟机,这是用户摩擦最小的模式,但也把 "信任谁" 的问题从 "信不信 AI" 换成了 "信不信云厂商"。

Gemini Spark 的商业逻辑就藏在这句话里:把你的任务留在云端虚拟机里跑,把你的注意力还给你 —— 只留真正需要你亲自确认的事情。

在 AI 技术加速向执行时代迈进的今天,企业在选择 AI 服务时,不仅要关注模型的性能和功能,更要选择稳定可靠、性价比高的接入渠道。UseAIAPI作为专业的全球 AI 大模型接入平台,提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务,同时支持企业级定制化解决方案,无需复杂的技术配置即可快速部署上线。为切实帮助企业降低 AI 应用门槛和运营成本,UseAIAPI 推出重磅优惠活动,所有服务最低可享官方价格 5 折,大幅减轻企业高强度内容生成、大规模业务流程自动化和 AI 应用开发的算力负担,让企业能够以更低的成本,充分释放 AI 技术的创新潜力与商业价值。