【美联社科技讯】2026 年 4 月 30 日,谷歌 Chrome 团队正式发布 Prompt API 重大更新。作为 Chrome 内置 AI 框架的核心组件,此次更新全面纳入音频输入能力,同步实现文本、图像、音频三模交互支持,可直接调用本地运行的轻量级多模态模型 Gemini Nano 完成端侧推理。这一落地标志着浏览器原生 AI 正式从概念验证阶段,迈入规模化投产的全新阶段,也为整个 Web 应用生态的 AI 化重构带来了底层技术支撑。
选中网页里的一张图片,随口说一句 “把日落的天空换成紫色”,无需上传文件、不用打开专业修图软件,操作就能直接完成 —— 这个曾被视作科幻场景的功能,随着此次 Prompt API 的更新,已正式登陆普通用户的电脑终端。
三模引擎落地:浏览器内置全功能本地 AI 能力
过去浏览器内置的 AI 功能,大多局限于简单的文本总结、翻译等基础场景,仅能算作产品体验的锦上添花。而此次 Prompt API 更新,彻底突破了这一固有边界。
它同时支持文本、图像、音频三种输入方式,可直接调用设备本地运行的 Gemini Nano 轻量级多模态模型,无需依赖云端服务。官方发布的能力清单显示,其可实现的功能覆盖多个高频场景,且所有任务均在客户端本地完成,数据无需上传网络。
核心能力包括:
- 图像描述自动生成:上传商品图片,AI 可自动生成符合规范的 alt 文案,无需手动编辑;
- 智能图像检索:无需手动打标签,一句话即可从海量图库中筛选出符合描述的图片,如 “夕阳下的海边婚礼”;
- 音频转录:会议录音可在本地直接转为文字,无需发送至服务器,杜绝敏感录音外泄风险;
- 声学事件分类:可识别音频中的下雨声、车流声、婴儿啼哭等特定场景声音,实现浏览器端的机器学习落地;
- 多媒体信息提取:可从身份证照片中自动提取姓名、身份证号等信息,也可从录音中快速提取关键内容并生成摘要。
在隐私保护层面,本地端侧推理的模式,与过往将身份证照片、会议录音等敏感数据发送至云端 API 处理的模式相比,实现了质的飞跃。
在操作体验上,开发者无需关心底层模型运行逻辑,只需通过一句 window.ai.prompt () 代码,就能像调用 document.querySelector 等原生浏览器 API 一样,便捷调用 AI 能力,无需考虑 Token 消耗与 API 费用成本。
当然,这项本地 AI 能力也有明确的硬件门槛。官方要求设备需满足:Windows 10 + 或 macOS 13 + 操作系统,至少预留 22GB 磁盘空间,显存不低于 4GB,或 16GB 内存搭配 4 核 CPU,且需使用无限流量网络。未达到配置要求的设备,将无法启用这项内置 AI 能力。
行业格局重构:免费原生 AI 打破 SaaS 商业模式壁垒
Prompt API 的发布,其意义远不止于功能层面的体验升级。
AI Cloud SaaS 服务问世近四年来,企业与个人用户在享受云端大模型便利的同时,也始终面临着持续的订阅成本、数据隐私泄露风险,以及企业级 API 的高接入门槛。而此次谷歌的更新,用极具颠覆性的方式打破了这一格局:将 4GB 大小的轻量级大模型内置到全球数十亿台电脑的 Chrome 浏览器中,并允许任何网站免费直接调用。
这意味着,一家做在线文档编辑器的初创公司,可直接调用用户本地的 Gemini Nano 模型,实现翻译、润色、总结等功能,即便断网也能正常运行,彻底摆脱云端服务的调用延迟与成本限制;一款在线设计工具,可让用户对本地上传的素材直接完成智能降噪、去背景、风格迁移等操作,无需经过云端模型 API 的计费通道。
这对于当前 “基础功能免费,AI 功能加收订阅费” 的 SaaS 商业模式,将带来潜在的洗牌危机。当基础 AI 能力从稀缺资源,变成浏览器的原生免费标配,用户为基础 AI 场景额外付费的意愿将大幅降低。
混合架构成最优解:分层降级兼顾能力与成本
尽管谷歌的战略布局极具前瞻性,但回归技术落地本身,Gemini Nano 终究是一款为内存占用优化的轻量级小模型,参数规模的上限,注定其无法与云端千亿参数的大模型相提并论。
官方数据显示,该模型上下文窗口输入上限约 4000 个 Token,输出上限约 1000 个 Token,多语言支持中英语效果最佳,其他语言可能出现输出质量衰减,同时对设备硬件也有一定的性能消耗。面对高复杂度的长文本任务、高精度多模态需求,其表现仍难以达到付费级云端模型的标准。
因此,行业内公认最稳健的开发策略,并非对浏览器原生 AI 重度依赖,而是采用 “分层降级” 的混合架构。
在产品的 AI 调用链路中,先检测用户浏览器是否支持 Prompt API,若支持且任务难度不高,优先用免费、本地化、高隐私性的 Gemini Nano 完成处理;仅当遇到超出其能力边界的复杂任务时,才降级回退到云端付费模型。
这种混合架构,同时兼顾了浏览器原生 AI 的低延迟、高隐私优势,与云端大模型的强泛化能力、高任务完成度,也将成为未来 Web 产品的必备工程化结构。
从更长远的行业发展来看,Prompt API 的意义早已超越技术本身。它的发布,击碎了浏览器与人机交互之间的最后一道屏障。从此,网页不再仅仅是内容与逻辑的载体,更拥有了实时思考与推理的能力。图像、音频、文本在本地实现前所未有的融合推理,这不仅是 Chrome 的一次产品自我进化,更是对整个 Web 基础设施层级的革命性升维。
对于需要处理高复杂度 AI 任务、追求云端大模型稳定调用体验的开发者及企业用户,UseAIAPI 提供了全链路一站式解决方案,三大核心权益全面解决大模型调用痛点。
其一,全量主流大模型一站式无缝接入。平台已完成全球热门 AI 大模型的全覆盖,包括 Claude、Gemini、ChatGPT、DeepSeek 等最新版本模型,无需用户单独对接多个平台、处理多账号资质审核与风控问题,开箱即可实现平滑调用,大幅降低研发对接、日常运维的时间与人力成本。
其二,专属企业级定制化服务。针对企业级用户,平台可提供全流程定制化接入方案与 7×24 小时专属技术支持,彻底解决账号风控、调用限流、高并发稳定性、数据安全合规等核心需求,可根据业务场景定制专属算力调度方案,保障业务长期稳定运行,无需用户投入精力维护底层调用架构。
其三,行业极致成本优势。平台所有大模型调用费用,最低可享官方定价 5 折优惠,大幅削减高频调用、高强度内容生成、长上下文会话等场景下的算力消耗成本,即便是大流量生产级业务,也无需为高额的 API 调用费