近日有消息称,OpenAI正在准备发布一款名为“GPT-Bidi-1”的新一代双向音频模型,目标是对ChatGPT现有语音模式进行一次明显升级。这个模型最核心的变化,在于采用了双向(Bidirectional)架构,打破了过去AI语音交互更像“单工对讲”的限制。它可以在系统说话的同时继续听用户输入,能够实时识别用户的插话和打断,并在不卡顿、不停滞的情况下及时调整输出内容,让实时语音对话听起来更加自然流畅。

从目前曝光的开发线索来看,OpenAI已经在网页端和移动端提前加入了与该模型相关的基础代码,为后续上线做准备。在产品形式上,这项新能力预计会与现有的高级语音模式(Advanced Voice Mode)同时存在,用户可以自行切换到“Bidi(最新)”模式。另外,这款模型在延续文本端分级思路的基础上,第一次在语音端加入了“高(High)、中(Medium)、即时(Instant)”三档智力与速度等级,让用户可以根据不同使用场景,在回答深度和响应速度之间灵活选择。

这次更新不只是简单提升音质或语调表现,更可以看作是OpenAI在多模态布局中的一次重要补强。
在此之前,OpenAI的文本大模型已经发展到推理能力更强的GPT-5.5阶段,而语音模型的进展相对慢一些,这也让多模态体验出现了一定落差。随着GPT-Bidi-1有望上线,这种语音与文本之间的能力差距将有机会被进一步缩小,也显示出OpenAI正把语音视为下一代AI的重要入口。这一步不仅有助于推进其语音优先(Audio-first)方向的发展,也为未来在硬件设备和企业级语音支持工具上的全面布局,打下更扎实的技术基础。


















用户38505528 9个月前0
粘贴不了啊用户12648782 10个月前0
用法杂不对呢?yfarer 10个月前0
草稿id无法下载,是什么问题?