
科技观察:全双工语音时代来临 Bidi 1 迭代重构 AI 交互体验
北京时间 6 月 23 日,据第三方测试平台 TestingCatalog 披露,OpenAI 下一代双向语音模型 Bidi 1 已启动首轮灰度测试。仅两天时间,已有部分用户在 ChatGPT 网页端与移动端客户端中发现功能入口。随着新功能的逐步推送,一个用户普遍关心的问题也随之而来:沿用至今的高级语音模式(Advanced Voice Mode)是否还有使用价值?两代语音方案的体验差距,本质上是底层交互架构的代际差异。
上一代技术天花板:轮替制的能力边界
2024 年 5 月 GPT-4o 产品发布会上,多语言实时语音对话的演示曾引发行业广泛关注,这便是高级语音模式的雏形。低延迟响应、拟人化情绪表达、基础打断支持,在当时代表了消费级 AI 语音交互的最高水平。
但受底层架构限制,该模式始终存在难以突破的体验短板。其核心采用 “轮替发言” 的半双工机制:用户发言时模型仅做识别处理,模型输出语音时用户无法有效打断,整个交互过程类似排队问答。即便支持打断操作,也需要先暂停输出、重新处理指令、再生成新的回复,衔接过程生硬,存在明显的等待间隙。
除此之外,上下文记忆偏差、长停顿误触发也是长期存在的体验痛点。多轮对话中,模型容易遗忘前文关键信息;用户思考中的短暂停顿,常被误判为发言结束而提前触发回复。这些问题并非功能 bug,而是半双工架构下的固有局限,也是语音交互从 “能用” 迈向 “好用” 必须跨越的门槛。而 Bidi 1 的出现,正是为突破这一瓶颈而来。
全双工架构落地:对话节奏交还用户
Bidi 取自 Bidirectional(双向)的缩写,其核心价值是彻底打破语音交互必须轮替执行的规则,将交互模式从 “对讲机式” 升级为 “通话式”。
传统语音交互如同使用对讲机,一方说完另一方才能发言,轮次之间存在明显的沉默间隔;Bidi 1 则实现了类似日常通话的全双工体验,模型在输出语音的同时可持续监听用户输入,对话过程中可随时接收新指令并即时响应。
最具代表性的测试场景直观体现了二者的差距:让模型从 1 数到 10,数到中途发出 “倒着数” 的指令,Bidi 1 会立刻从当前数字开始反向计数,无需等待播报结束,也无需用户重复完整指令,切换过程无缝衔接。而高级语音模式虽也能识别打断,但需要经历 “暂停 - 重处理 - 重新输出” 的完整流程,断裂感十分明显。
两项细节优化进一步拉近了与真人对话的体验差距。其一为自然停顿承接,用户语速放缓或短暂思考时,模型会以轻声应答自然承接对话,既不会长时间静默,也不会误判发言结束提前抢话;其二为内嵌实时翻译,双向翻译能力深度融合在对话流程中,无需单独调用工具,交流过程中可自动完成语种转换,相比旧模式独立的翻译功能,融入感更强。
三级推理档位:语音交互首次实现算力按需匹配
除了底层架构的革新,Bidi 1 还新增了高级语音模式完全不具备的三级推理档位调节,让语音交互首次拥有了 “思考深度” 的调节维度。
- High 档位:深度推理模式,适配法务合同审查、学术议题讨论、复杂逻辑拆解等专业场景;
- Medium 档位:平衡响应速度与推理深度,适配绝大多数日常对话场景,为默认选项;
- Instant 档位:极速响应模式,适配天气查询、日程设置、快问快答等轻量化指令场景。
在旧模式下,无论任务复杂程度如何,模型均采用同一套算力配置,简单任务存在算力浪费,复杂任务又受限于固定推理深度。三级档位的设计将算力调配的选择权交还给用户,不同场景匹配对应档位,实现体验与成本的平衡。
迭代判断:功能可向下兼容 体验存在代差
目前 Bidi 1 仍处于小范围灰度测试阶段,功能入口位于设置页面的模型选择器中,与标准语音、高级语音模式并列展示,选中后对话气泡将切换为专属黄色标识。
对于已获得测试资格的用户而言,升级切换是明确的最优选择。高级语音模式能够实现的功能,Bidi 1 均可完整支持;而实时双向并行、长上下文稳定保持、自然停顿承接、多档位推理调节、内嵌实时翻译等特性,则是旧模式无法实现的代际升级。它并非在原有基础上的功能增补,而是语音交互底层架构的完整重构。
从轮替制到并行制,从问答式交互到连续流对话,从系统主导节奏到用户主导节奏,Bidi 1 的出现,印证了行业的普遍判断:语音交互正逐步成为大众接触 AI 的核心入口形态,而全双工正是这条发展路径上的关键一步。高级语音模式仍可正常使用,但从技术代际来看,它已经属于上一个时代的产品。
随着 AI 语音与多模态能力的持续迭代,前沿技术的落地应用正在不断加速。对于国内企业与开发者而言,想要及时跟进全球前沿大模型能力、落地多模态交互场景,稳定可靠的服务支撑是重要基础。
UseAIAPI 覆盖全球多款主流热门 AI 大模型,包含 GPT、Claude、Gemini、DeepSeek 等前沿模型的全功能接入支持,无需等待区域灰度推送,即可便捷调用核心能力。平台同时提供企业级定制化服务,可根据不同业务场景匹配专属接入方案,全程保障链路稳定与数据安全;在成本层面,平台专属优惠力度最低可达官方定价的 50%,能够有效降低高频调用、高强度内容生成场景下的算力消耗成本,帮助企业与开发者以更可控的成本,快速落地前沿 AI 应用。