OpenAI或将推出新一代双向语音模型“GPT-Bidi-1”

 近日有消息称,OpenAI正在准备发布一款名为“GPT-Bidi-1”的新一代双向音频模型,目标是对ChatGPT现有语音模式进行一次明显升级。这个模型最核心的变化,在于采用了双向(Bidirectional)架构,打破了过去AI语音交互更像“单工对讲”的限制。它可以在系统说话的同时继续听用户输入,能够实时识别用户的插话和打断,并在不卡顿、不停滞的情况下及时调整输出内容,让实时语音对话听起来更加自然流畅。

QQ20260617-153315.jpg

从目前曝光的开发线索来看,OpenAI已经在网页端和移动端提前加入了与该模型相关的基础代码,为后续上线做准备。在产品形式上,这项新能力预计会与现有的高级语音模式(Advanced Voice Mode)同时存在,用户可以自行切换到“Bidi(最新)”模式。另外,这款模型在延续文本端分级思路的基础上,第一次在语音端加入了“高(High)、中(Medium)、即时(Instant)”三档智力与速度等级,让用户可以根据不同使用场景,在回答深度和响应速度之间灵活选择。

QQ20260617-153446.jpg

这次更新不只是简单提升音质或语调表现,更可以看作是OpenAI在多模态布局中的一次重要补强。

在此之前,OpenAI的文本大模型已经发展到推理能力更强的GPT-5.5阶段,而语音模型的进展相对慢一些,这也让多模态体验出现了一定落差。随着GPT-Bidi-1有望上线,这种语音与文本之间的能力差距将有机会被进一步缩小,也显示出OpenAI正把语音视为下一代AI的重要入口。这一步不仅有助于推进其语音优先(Audio-first)方向的发展,也为未来在硬件设备和企业级语音支持工具上的全面布局,打下更扎实的技术基础。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享