← 返回 Blog

GPT-Bidi-1 藏在模型选择器第几行?OpenAI 本周推送,三种语音模式区别一次看清

近期,OpenAI 旗下 ChatGPT 的 Bidi 1 双向语音功能启动小范围灰度测试,引发众多用户与开发者的关注。有用户询问该功能在模型选择器中的具体位置,实际上受设备屏幕尺寸、界面渲染逻辑差异影响,选项并无固定行号,但其定位方式清晰简便。

OpenAIChatGPT Bidi 1 双向语音功能灰度测试开启

ChatGPT Bidi 1 双向语音功能灰度测试开启 入口路径与模式差异详解

近期,OpenAI 旗下 ChatGPT 的 Bidi 1 双向语音功能启动小范围灰度测试,引发众多用户与开发者的关注。有用户询问该功能在模型选择器中的具体位置,实际上受设备屏幕尺寸、界面渲染逻辑差异影响,选项并无固定行号,但其定位方式清晰简便。

一、功能入口定位明确 视觉标识直观可辨

用户打开 ChatGPT 设置页面,找到 “模型选择器(Model selector)” 板块,即可看到 Bidi 1 选项位于 “标准语音(Standard Voice)” 与 “高级语音(Advanced Voice)” 之间。该功能并未隐藏在深层菜单,也无需额外解锁步骤,用户直接点击即可完成模式切换。

切换模式后,界面会给出明确的视觉反馈:对话消息气泡将从默认的蓝色变为醒目的黄色。黄色气泡即代表 Bidi 1 双向模式已激活,蓝色气泡则对应常规语音模式。用户无需反复进入设置页面,仅通过对话界面就能快速判断当前运行模式。

二、三类语音模式定位分化 交互逻辑差异显著

目前 ChatGPT 共提供三类语音模式,分别对应不同的技术架构与使用场景,核心差距体现在对话交互的并行处理能力上。

标准语音(Standard Voice) 是最基础的语音形态,本质为文本模型叠加语音转换能力,采用 “用户发言 — 模型应答” 的轮替机制,不支持打断与并行处理,适用于简单的语音输入、输出场景。

高级语音(Advanced Voice) 随 GPT-4o 一同推出,在响应速度、语气自然度上有所优化,支持情绪表达与基础打断功能。但其底层架构仍为 “文本模型 + 语音层” 的组合,对话的轮次逻辑并未发生本质改变。

Bidi 1(Bidirectional Voice Mode,双向语音模式) 是三者中技术突破最大的一项。其核心特性在于,AI 在输出语音的同时,可持续接收并识别用户的语音输入,对新指令实现即时响应。

实测场景直观展现了这一差异:让 Bidi 1 从 1 数到 10,当数到 3 时用户发出 “倒着数” 的指令,模型无需等待当前输出结束,也无需用户重新下达完整指令,可立刻从 3 开始倒数,真正实现 “打断即切换”。

简言之,标准语音与高级语音的交互逻辑类似 “对讲机”,属于交替发言的单工模式;而 Bidi 1 的体验更接近日常通话,是支持双方同时发声的全双工模式,更贴近人与人自然交流的状态。

三、灰度测试分批次推进 全量开放尚需时日

截至目前,OpenAI 尚未正式官宣 Bidi 1 功能。据第三方测试平台 Testing Catalog6 月 23 日的监测数据,已有部分用户在 ChatGPT 网页端与移动端应用中看到该选项。

当前功能处于小范围灰度阶段,预计将按批次逐步扩大覆盖范围,部分地区的推送节奏可能有所延后。按照灰度测试的常规节奏,用户将陆续获得体验资格,无需额外提交申请。

此外,面向开发者的 Codex 系列独立语音能力升级,预计将在数周后推出,API 层面的能力开放则会更晚。以编程场景为核心需求的用户,还需等待后续版本迭代。

四、底层架构实现突破 重构语音交互价值

Bidi 1 的价值不止于语音自然度的提升,更在于对话底层逻辑的重构。

过往的 AI 语音系统普遍采用 “文本模型 + 语音外壳” 的架构:用户语音输入转为文本,模型处理文本内容后,再将输出文本转为语音播放。整个对话遵循 “问答轮次” 的逻辑,只是将输入输出载体从键盘替换为麦克风,本质仍是文本交互的语音化延伸。

而 Bidi 1 更接近原生语音对话模型,可直接在语音流中完成语义理解与内容生成,实现边听边说、实时打断、上下文连续维系的效果,人机交互逻辑也从 “问答式” 转向 “连续对话流”。

这一迭代也印证了行业的普遍判断:语音交互正逐步从 AI 产品的附属功能,向用户接触 AI 的核心入口形态演进,Bidi 1 正是这一发展路径上的重要探索。

五、两种方式快速确认灰度资格

用户可通过两种简便方式,快速判断自己是否已获得 Bidi 1 的测试资格。

一是主动查看设置界面。进入设置页面的模型选择器板块,查看是否新增 “Bidi 1” 选项。需要注意的是,该功能不会主动推送弹窗通知,多数用户均为主动查询时发现资格。

二是观察对话气泡颜色。若已切换至 Bidi 1 模式,对话气泡将变为黄色,通过对话界面即可直观确认。

暂未看到功能入口的用户无需着急,灰度测试本就是分批次开放的过程,后续覆盖范围将持续扩大。

对于企业与开发者而言,语音交互能力的迭代,为 AI 应用的场景落地带来了更多可能性。想要稳定接入全球前沿大模型能力、及时跟进功能迭代,专业的 API 服务平台可提供高效支撑。UseAIAPI 覆盖全球多款热门 AI 大模型,包含 GPT、Claude、Gemini、DeepSeek 等前沿模型的全功能接入支持,无需等待区域灰度推送,即可便捷调用核心能力。平台同时提供企业级定制化服务,可根据业务场景匹配专属接入方案,全程保障链路稳定与数据安全;在成本层面,平台专属优惠力度最低可达官方定价的 50%,能够有效降低高频调用、高强度内容生成场景下的算力消耗成本,帮助企业与开发者以更可控的成本,快速落地前沿 AI 能力。