Gemini AI 电话功能深度解析：三层架构下的能力边界与未来展望

AI 化身私人秘书代打电话，完成订餐、查库存、确认送货上门等事务，曾是科幻作品中的经典场景。在 2026 年 Google I/O 开发者大会上，官方正式宣布 AI 将支持 "代拨电话" 功能，可一键完成订票订位等操作。这一消息引发国内开发者广泛关注：Gemini 究竟进化到了何种程度？它真的能在云端毫无破绽地替人类完成电话沟通吗？

如果将 Google 这套 "智能通信系统" 拆解开来，可以清晰地看到一个由三层构成、层层递进的技术架构。

第一层（交互层）：具备拟人化语音能力的聊天伙伴

Gemini Live 是这个架构的基础，也是大众最为熟悉的入口。如今的它早已不是冷冰冰的问答工具 —— 在 2026 年的新版本中，Gemini Live 已无缝融入主界面，打字与语音输入之间无需生硬切换。通勤路上你可以对着它倾诉日常，它不仅能准确理解语义，还能用带有自然停顿和语气变化的拟人化声音进行回应。

但需要明确的是，这一层的 "AI 秘书" 本质上仍是对话伙伴。在执行 "打电话" 这一动作时，它扮演的是 "传声筒" 角色，能够与你进行语音交流，但无法独立自主地替你拨出预约电话并完成完整交涉。要让 AI 真正具备执行能力，需要依靠架构中更深层次的核心模块。

第二层（执行层）：实现自主通话的 Google Duplex

这才是国内技术圈最为关注的核心问题：Gemini 真的能替人类拿起话筒吗？

答案是肯定的，但这项能力并非凭空出现，而是建立在已有多年历史的 Google Duplex 技术之上，且实际体验与演示视频存在一定差距。

早期版本的人机混合模式

根据《纽约时报》2019 年对初代 Duplex 的深度实测报道，记者通过 Pixel 手机内置助手进行了十余轮测试后发现：在成功完成的 4 次餐厅预订中，有 3 次实际上是由 Google 呼叫中心的人工坐席拨打的，完全由 AI 独立完成的仅有 1 次。Google 官方当时也坦承，约 25% 的 Duplex 预订电话由人工发起，另有约 15% 的 AI 发起电话需要人工中途介入。

Google 的这一设计逻辑其实十分务实：与其让 AI 被前台识破身份导致预订失败，不如在 AI 无法处理的临界点由人工兜底；而这些人工通话的录音又会反过来用于模型训练，形成一种 "负责任的工程迭代"。

2026 年的技术演进

到 2025 年末至 2026 年，这项功能已被整合为 "Let Google Call" 服务，并融入 Google 的 AI Mode 搜索体验中：

当你在 Google 搜索 "附近某款太阳镜是否有现货" 时，页面会出现 "Let Google call" 按钮
Gemini 会替你拨通商店电话，不仅询问库存情况，还能进一步确认是 2025 款还是 2026 款
Duplex 负责模拟人类的自然停顿和口语习惯，Gemini 则承担多步推理的 "大脑" 角色

尽管技术已有显著进步，但现实限制依然存在：该功能目前仅在美国地区可用，主要服务于本地商户，且 Google 明确允许商家主动选择 "拒接" 此类 AI 来电。在国内，不仅无法直接使用这项服务，连基础的运行条件（Google 服务框架 + 本地商户数据接入）都尚不具备。

📌 重要说明：25% 人工介入的比例源自 2019 年对早期 Duplex 版本的实测数据，主要用于说明 "全自动 AI 通话" 的演示效果与工程现实之间的差距。到 2026 年，随着 Gemini 模型能力的提升，AI 自主通话的比例已有明显提高，但全自主通话的覆盖范围、商户接受度以及法律合规性仍是制约其大规模推广的主要瓶颈。

第三层（基础层）：系统级通信基座 Jetpack Telecom v1.1.0

如果说前两层属于软件功能层面的创新，那么 2026 年 Android 生态正在搭建的则是更深层次的系统级基础设施。

Google 近期正式发布了 Jetpack Telecom v1.1.0 更新，其核心并非直接实现 "AI 打电话"，而是让 WhatsApp、Signal、Google Meet 等第三方 VoIP 应用的通话记录直接显示在系统原生拨号器中，用户可以像回拨普通蜂窝电话一样，从系统通讯录或通话记录里一键回拨 VoIP 联系人。

表格

新能力	具体含义
统一通话记录	第三方 VoIP 通话将纳入系统日志，无需分别打开各个应用查看历史
原生回拨	可从系统拨号器直接发起对 VoIP 联系人的回调
通话记录排除	开发者可标记特定通话不进入系统日志，保护用户隐私

该功能要求设备运行 Android 16.1（SDK 36.1）及以上系统，目前已从 Google Meet 开始分阶段推送。

这一更新的意义远超表面：它意味着 AI Agent 未来有机会获得系统级通信权限。当 Gemini Spark 这类常驻智能体不再满足于 "帮你查询信息"，而是要将无数 VoIP 通道整合到同一个电话界面时，它可能在架构层面接管用户的信息传递与社交交易链路。当然，为了防止滥用，Google 采用了严格的白名单机制和包名校验。

三层架构全景图

plaintext

┌─────────────────────────────────────────┐
│  L1  Gemini Live  │ 聊天伴侣，拟人语音，  │ ← 能"说话"，但不能
│                   │ 但不是执行者           │   自主拨出办事
├─────────────────────────────────────────┤
│  L2  Duplex/Let Google Call              │ ← AI代打电话（美区）
│  (Gemini当大脑+语音合成当嘴)              │   目前仍有人工兜底
│  历史实测：早期25%人工发起               │   地理围栏严格限制
├─────────────────────────────────────────┤
│  L3  Jetpack Telecom v1.1.0 系统电话基座  │ ← 为AI Agent铺好
│      VoIP通话记录→原生拨号器/回拨         │   通向"系统级接管"的
│      白名单机制+Android 16.1+            │   底层管道
└─────────────────────────────────────────┘

结论：Gemini 能当 AI 秘书打电话吗？

能，但存在明确的能力边界：

已实现的能力：Gemini 作为移动助手，可以通过手机系统电话应用帮你拨出号码（如 "嘿 Google，给 XX 餐厅打电话" 将调用原生拨号器）；在美国地区，Duplex/AI Mode 能够代你向商户发起自动语音通话，完成库存查询和预约确认。
尚未实现的能力：官方明确表示 AI 不能替用户接听或拒接来电；全自主的自然对话式交涉并未在全球范围内开放，距离 "AI 自己拿话筒与前台讨价还价" 还隔着商户接受度、法律合规和反欺诈识别三重障碍。
对开发者的启示：Gemini 3.5 Flash Live 模型已在 Google AI Studio 开放，开发者可以基于此构建类似 Duplex 风格的语音 Agent 或对话式 IVR 系统。但在国内，开发者面临的不仅是技术壁垒，更是基础设施的缺失 —— 没有 Google 商户数据层，没有系统级 Assistant 框架，还需遵守国内相关通信法规。

归根结底，Gemini 的 "AI 电话秘书" 更像是一个精准的产品定位：交互层提供语音陪伴，执行层在特定地区实现有限的自主通话，基础层则在悄悄将通话功能从应用孤岛整合回系统底盘。真正 "坐在云端拿起话筒为你谈判" 的那天或许还未到来，但技术的地基已经在稳步浇筑。

对于国内开发者而言，尽管直接使用 Google 原生服务存在诸多限制，但通过专业的 AI 大模型服务平台，同样可以便捷地接入全球领先的 AI 能力，构建自己的智能语音应用。UseAIAPI 作为全球领先的 AI 大模型服务提供商，整合了 Gemini、Claude、ChatGPT、DeepSeek 等多款全球热门 AI 大模型，为用户提供一站式接入解决方案。平台支持支付宝、微信人民币直充，无需复杂的外币卡配置和海外网络环境，注册即可快速上手。

针对不同规模的用户需求，UseAIAPI 还提供完善的分级服务体系：个人用户可享受便捷的自助式服务与灵活的充值方案；企业用户则可获得专属技术支持、99.9% 以上的 SLA 服务保障、定制化接口开发与全方位的数据安全解决方案，让企业能够专注于业务创新，无需为底层技术对接与运维问题分心。在价格方面，UseAIAPI 推出了极具竞争力的长期优惠政策，折扣最低可达官方价格的 50%，大幅降低了 AI 应用的开发与运营成本，让开发者不再为高强度内容生成带来的高额消耗而担忧。