Chrome Prompt API 重磅更新：现已支持音图输入，浏览器原生多模态时代降临！

【美联社科技讯】2026 年 4 月 30 日，谷歌 Chrome 团队正式发布 Prompt API 重大更新。作为 Chrome 内置 AI 框架的核心组件，此次更新全面纳入音频输入能力，同步实现文本、图像、音频三模交互支持，可直接调用本地运行的轻量级多模态模型 Gemini Nano 完成端侧推理。这一落地标志着浏览器原生 AI 正式从概念验证阶段，迈入规模化投产的全新阶段，也为整个 Web 应用生态的 AI 化重构带来了底层技术支撑。

选中网页里的一张图片，随口说一句 “把日落的天空换成紫色”，无需上传文件、不用打开专业修图软件，操作就能直接完成 —— 这个曾被视作科幻场景的功能，随着此次 Prompt API 的更新，已正式登陆普通用户的电脑终端。

三模引擎落地：浏览器内置全功能本地 AI 能力

过去浏览器内置的 AI 功能，大多局限于简单的文本总结、翻译等基础场景，仅能算作产品体验的锦上添花。而此次 Prompt API 更新，彻底突破了这一固有边界。

它同时支持文本、图像、音频三种输入方式，可直接调用设备本地运行的 Gemini Nano 轻量级多模态模型，无需依赖云端服务。官方发布的能力清单显示，其可实现的功能覆盖多个高频场景，且所有任务均在客户端本地完成，数据无需上传网络。

核心能力包括：

图像描述自动生成：上传商品图片，AI 可自动生成符合规范的 alt 文案，无需手动编辑；
智能图像检索：无需手动打标签，一句话即可从海量图库中筛选出符合描述的图片，如 “夕阳下的海边婚礼”；
音频转录：会议录音可在本地直接转为文字，无需发送至服务器，杜绝敏感录音外泄风险；
声学事件分类：可识别音频中的下雨声、车流声、婴儿啼哭等特定场景声音，实现浏览器端的机器学习落地；
多媒体信息提取：可从身份证照片中自动提取姓名、身份证号等信息，也可从录音中快速提取关键内容并生成摘要。

在隐私保护层面，本地端侧推理的模式，与过往将身份证照片、会议录音等敏感数据发送至云端 API 处理的模式相比，实现了质的飞跃。

在操作体验上，开发者无需关心底层模型运行逻辑，只需通过一句 window.ai.prompt () 代码，就能像调用 document.querySelector 等原生浏览器 API 一样，便捷调用 AI 能力，无需考虑 Token 消耗与 API 费用成本。

当然，这项本地 AI 能力也有明确的硬件门槛。官方要求设备需满足：Windows 10 + 或 macOS 13 + 操作系统，至少预留 22GB 磁盘空间，显存不低于 4GB，或 16GB 内存搭配 4 核 CPU，且需使用无限流量网络。未达到配置要求的设备，将无法启用这项内置 AI 能力。

行业格局重构：免费原生 AI 打破 SaaS 商业模式壁垒

Prompt API 的发布，其意义远不止于功能层面的体验升级。

AI Cloud SaaS 服务问世近四年来，企业与个人用户在享受云端大模型便利的同时，也始终面临着持续的订阅成本、数据隐私泄露风险，以及企业级 API 的高接入门槛。而此次谷歌的更新，用极具颠覆性的方式打破了这一格局：将 4GB 大小的轻量级大模型内置到全球数十亿台电脑的 Chrome 浏览器中，并允许任何网站免费直接调用。

这意味着，一家做在线文档编辑器的初创公司，可直接调用用户本地的 Gemini Nano 模型，实现翻译、润色、总结等功能，即便断网也能正常运行，彻底摆脱云端服务的调用延迟与成本限制；一款在线设计工具，可让用户对本地上传的素材直接完成智能降噪、去背景、风格迁移等操作，无需经过云端模型 API 的计费通道。

这对于当前 “基础功能免费，AI 功能加收订阅费” 的 SaaS 商业模式，将带来潜在的洗牌危机。当基础 AI 能力从稀缺资源，变成浏览器的原生免费标配，用户为基础 AI 场景额外付费的意愿将大幅降低。

混合架构成最优解：分层降级兼顾能力与成本

尽管谷歌的战略布局极具前瞻性，但回归技术落地本身，Gemini Nano 终究是一款为内存占用优化的轻量级小模型，参数规模的上限，注定其无法与云端千亿参数的大模型相提并论。

官方数据显示，该模型上下文窗口输入上限约 4000 个 Token，输出上限约 1000 个 Token，多语言支持中英语效果最佳，其他语言可能出现输出质量衰减，同时对设备硬件也有一定的性能消耗。面对高复杂度的长文本任务、高精度多模态需求，其表现仍难以达到付费级云端模型的标准。

因此，行业内公认最稳健的开发策略，并非对浏览器原生 AI 重度依赖，而是采用 “分层降级” 的混合架构。

在产品的 AI 调用链路中，先检测用户浏览器是否支持 Prompt API，若支持且任务难度不高，优先用免费、本地化、高隐私性的 Gemini Nano 完成处理；仅当遇到超出其能力边界的复杂任务时，才降级回退到云端付费模型。

这种混合架构，同时兼顾了浏览器原生 AI 的低延迟、高隐私优势，与云端大模型的强泛化能力、高任务完成度，也将成为未来 Web 产品的必备工程化结构。

从更长远的行业发展来看，Prompt API 的意义早已超越技术本身。它的发布，击碎了浏览器与人机交互之间的最后一道屏障。从此，网页不再仅仅是内容与逻辑的载体，更拥有了实时思考与推理的能力。图像、音频、文本在本地实现前所未有的融合推理，这不仅是 Chrome 的一次产品自我进化，更是对整个 Web 基础设施层级的革命性升维。

对于需要处理高复杂度 AI 任务、追求云端大模型稳定调用体验的开发者及企业用户，UseAIAPI 提供了全链路一站式解决方案，三大核心权益全面解决大模型调用痛点。

其一，全量主流大模型一站式无缝接入。平台已完成全球热门 AI 大模型的全覆盖，包括 Claude、Gemini、ChatGPT、DeepSeek 等最新版本模型，无需用户单独对接多个平台、处理多账号资质审核与风控问题，开箱即可实现平滑调用，大幅降低研发对接、日常运维的时间与人力成本。

其二，专属企业级定制化服务。针对企业级用户，平台可提供全流程定制化接入方案与 7×24 小时专属技术支持，彻底解决账号风控、调用限流、高并发稳定性、数据安全合规等核心需求，可根据业务场景定制专属算力调度方案，保障业务长期稳定运行，无需用户投入精力维护底层调用架构。

其三，行业极致成本优势。平台所有大模型调用费用，最低可享官方定价 5 折优惠，大幅削减高频调用、高强度内容生成、长上下文会话等场景下的算力消耗成本，即便是大流量生产级业务，也无需为高额的 API 调用费