← 返回 Blog

告别纯文本!Chrome Prompt API 多模态实战:如何让网页“看懂”图片、“听懂”音频?

【美联社科技讯】2026 年 5 月,谷歌正式发布 Chrome 148 稳定版本,其中内置的 Prompt API 迎来史诗级能力升级。此次更新打破了浏览器本地 AI 仅支持文本处理的局限,将支持文本、图像和音频输入的多模态能力全面整合进浏览器内核,基于内置的 Gemini Nano 轻量级模型,实现所有 AI 推理任务的端侧本地运行。这一技术落地,标志着...

【美联社科技讯】2026 年 5 月,谷歌正式发布 Chrome 148 稳定版本,其中内置的 Prompt API 迎来史诗级能力升级。此次更新打破了浏览器本地 AI 仅支持文本处理的局限,将支持文本、图像和音频输入的多模态能力全面整合进浏览器内核,基于内置的 Gemini Nano 轻量级模型,实现所有 AI 推理任务的端侧本地运行。这一技术落地,标志着 Web 应用从 “信息展示载体” 向 “原生智能交互体” 的转型正式进入规模化落地阶段。

此次升级的核心价值,在于彻底拉低了 Web 应用多模态 AI 能力的开发门槛。开发者无需搭建复杂的云端服务,仅通过简单的 JavaScript 代码,就能让网页实现 “看图说话”“听音解意” 的智能能力,所有数据处理全程在用户设备内完成,无需上传云端。

多模态能力解码:浏览器如何实现 “看” 与 “听”

多模态输入的落地,是 Prompt API 底层能力的一次关键跃升。其实现核心,在于 Chromium 内核深度集成的 Gemini Nano 模型,开发者可通过原生 JavaScript 接口,直接向模型传入本地图片、音视频数据,无需依赖第三方服务。

目前该功能全面支持 JPEG 和 PNG 格式的图像输入,可执行图像描述生成、智能图片检索、音频转录、声音事件分类等核心任务。Chrome 同步上线了专用演示页面 chrome://on-device-internals,开发者可通过其中的 “Model Status” 标签,实时查看本地模型的名称、版本号与运行状态。

多模态能力的开启流程极为简便。在 Chrome Canary 或 Chrome 138 及以上版本中,用户只需在 chrome://flags 页面开启 #prompt-api-for-gemini-nano-multimodal-input 开关,激活多模态沙盒能力,完成配置后即可在代码层面编写调用逻辑。

图像输入实战:几十行代码搭建离线图像识别系统

从工程落地角度,多模态图像能力的实现可分为两大核心步骤,全程无需复杂的云端适配。

第一步是能力探测与环境准备。按照 Chrome 官方最佳实践,开发者在功能上线前,需调用 LanguageModel.availability () 完成三重状态检测:返回 available 代表模型可直接调用;返回 downloading 说明模型正在后台加载,需提示用户等待;返回 unavailable 则意味着当前设备未达到硬件配置门槛。

第二步是构建多模态会话。可行性验证通过后,开发者可通过 ai.languageModel.create () 创建模型的全局会话实例。需要注意的是,当前官方 API 无法自动识别文件类型,必须先将图像文件转换为 DataURL 或二进制文本流,以系统约定的通用格式传入。

开发者只需将图片的 base64 编码放入标记好的图像专用标签数组中,配合预定义的提示词,再调用 session.prompt () 方法一并传入即可完成调用。整个过程中,数据仅在用户设备内部流转,彻底阻断外部泄露风险,同时将推理延迟控制在毫秒级。

这意味着,一个免联网、高私密性的证件预审系统,仅需几十行 HTML+JavaScript 代码,就能整合进浏览器环境中,无需任何后端服务支持。

音频输入实战:本地端侧实现会议转写与声纹分类

多模态能力的升级并未局限于视觉场景,Gemini Nano 对音频输入的原生支持,为流式会议处理、客户端弹幕字幕、语音消息即时转写等场景打开了全新的想象空间。

音频的接入逻辑与图像类似,但官方明确了其对 GPU 硬件的强依赖:应用如需处理音频输入,必须使用 GPU 模式,即设备配备独立显卡且显存大于 4GB,功能才能正常运行。用于音频输入的数据,需预先转换为 base64 编码的指定格式,与对应的数据类型参数一同传递给 Prompt API 处理。

官方公布的核心应用场景包括音频转录、声音事件分类、音频素材结构化信息提取等。例如,开发者可设计一款完全离线的语音记事本助手,录下的会议内容可通过浏览器原生 AI 实时转写字幕、分类事件,数据全程不经过云端。而这种体验,在过去必须接入昂贵的第三方云端服务才能实现。

能力边界清晰:混合架构成业务落地最优解

需要明确的是,Gemini Nano 仅有数 GB 大小,属于高度定制化的轻量高效模型。它擅长处理特定的分类、总结、描述与音频转录任务,也能实时识别图像中的身份与文本属性,但与 Gemini Pro、Ultra 系列云端大模型之间,仍存在断层式的能力差距。简单来说,Nano 可以在 200 毫秒内精准描述一张图片,但在生成长篇深度研究报告等复杂任务上,仍存在显著短板。

因此,行业公认的稳健开发策略,并非对浏览器原生 AI 重度依赖,而是采用 “分层降级” 的混合架构。在产品的 AI 调用链路中,先检测用户浏览器是否支持 Prompt API,若支持且任务难度不高,优先用免费、本地化、高隐私性的 Gemini Nano 完成处理;仅当遇到超出其能力边界的复杂任务时,再无缝降级回退到云端付费模型。

这种 “芯片离线 + 云端在线” 的混合调用模式,兼顾了原生 AI 的低延迟、高隐私优势,与云端大模型的强泛化能力,成为真实业务场景中的最优解。

生态重构:浏览器升级为操作系统级 AI 基础设施

Chrome 通过 Prompt API 落地的多模态能力,对整个 Web 生态形成了降维冲击。过去,前端开发被牢牢限定在界面 “展示层”,任何 AI 相关的操作逻辑,都必须通过云端服务器或第三方托管模型才能拿到结果。而现在,只需一行代码 const session = await ai.languageModel.create (),开发者就能直接调用离线的语音和图像推理能力,无需任何云端服务支持。

与此同时,谷歌在 2026 年 2 月公布的 WebMCP 已进入早期预览阶段,允许网站通过结构化工具直接向复杂 AI Agent 暴露功能,免去了 Agent 通过截图解析猜测界面的繁琐流程,而这一能力的实现,恰恰依赖于多模态 Prompt API 的核心技术。

更进一步来看,谷歌现有的扩展 API 已允许用户通过自然语言提示词生成 Chrome 扩展程序,结合 AI 本地推理能力,大幅降低了插件开发门槛。这种 “提示即扩展” 的技术架构,让 AI Agent 从网页的旁观者,真正变成了浏览器原生的交互主体。

Prompt API 的多模态能力,正悄然推动 Web 应用完成从 “信息展示载体” 到 “可自然交流的智能体” 的蜕变。在这个全新的技术体系里,用户隐私不再依赖被动的信任承诺,而是通过端侧推理的架构设计实现底层兜底;AI 能力也从云端的稀缺奢侈品,逐步变成了浏览器的标准基础设施。

对于需要处理高复杂度 AI 任务、追求云端大模型稳定调用体验的开发者及企业用户,UseAIAPI 提供了全链路一站式解决方案,三大核心权益全面解决大模型调用痛点。

其一,全量主流大模型一站式无缝接入。平台已完成全球热门 AI 大模型的全覆盖,包括 Claude、Gemini、ChatGPT、DeepSeek 等最新版本模型,无需用户单独对接多个平台、处理多账号资质审核与风控问题,开箱即可实现平滑调用,大幅降低研发对接、日常运维的时间与人力成本。

其二,专属企业级定制化服务。针对企业级用户,平台可提供全流程定制化接入方案与 7×24 小时专属技术支持,彻底解决账号风控、调用限流、高并发稳定性、数据安全合规等核心需求,可根据业务场景定制专属算力调度方案,保障业务长期稳定运行,无需用户投入精力维护底层调用架构。

其三,行业极致成本优势。平台所有大模型调用费用,最低可享官方定价 5 折优惠,大幅削减高频调用、高强度内容生成、长上下文会话等场景下的算力消耗成本,即便是大流量生产级业务,也无需为高额的 API 调用费用担忧。