OpenAI或将推出新一代双向语音模型“GPT-Bidi-1”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日有消息称，OpenAI正在准备发布一款名为“GPT-Bidi-1”的新一代双向音频模型，目标是对ChatGPT现有语音模式进行一次明显升级。这个模型最核心的变化，在于采用了双向（Bidirectional）架构，打破了过去AI语音交互更像“单工对讲”的限制。它可以在系统说话的同时继续听用户输入，能够实时识别用户的插话和打断，并在不卡顿、不停滞的情况下及时调整输出内容，让实时语音对话听起来更加自然流畅。

从目前曝光的开发线索来看，OpenAI已经在网页端和移动端提前加入了与该模型相关的基础代码，为后续上线做准备。在产品形式上，这项新能力预计会与现有的高级语音模式（Advanced Voice Mode）同时存在，用户可以自行切换到“Bidi(最新)”模式。另外，这款模型在延续文本端分级思路的基础上，第一次在语音端加入了“高(High)、中(Medium)、即时(Instant)”三档智力与速度等级，让用户可以根据不同使用场景，在回答深度和响应速度之间灵活选择。

这次更新不只是简单提升音质或语调表现，更可以看作是OpenAI在多模态布局中的一次重要补强。

在此之前，OpenAI的文本大模型已经发展到推理能力更强的GPT-5.5阶段，而语音模型的进展相对慢一些，这也让多模态体验出现了一定落差。随着GPT-Bidi-1有望上线，这种语音与文本之间的能力差距将有机会被进一步缩小，也显示出OpenAI正把语音视为下一代AI的重要入口。这一步不仅有助于推进其语音优先（Audio-first）方向的发展，也为未来在硬件设备和企业级语音支持工具上的全面布局，打下更扎实的技术基础。