ChatGPT把语音整合进主界面:说话看图同步、转录实时生成,还能一键回到旧版界面

OpenAI宣布不再单独设置“语音模式”入口,把实时语音和视觉结果直接融合进ChatGPT主聊天窗口。按住🎤就能一边说话一边看地图、图表、图片,文字转录同步生成,无需切换页面。

image.png

核心更新  

– 多模态同屏:说话提问的同时,界面会实时呈现对应的视觉结果(路线地图、数据图、商品图片等),文字转录自动滚动显示  

– 交流无打断:可连续追问,模型在语音回复的同时更新画面,平均延迟<300ms  

– 一键回旧版:设置→语音→“沉浸式音频模式”中可切换回旧的独立界面,满足纯音频使用偏好

技术底座  

本次语音由 GPT-5.1-large 搭配多模态视觉编码器驱动,支持 100k tokens 上下文;语音侧采用端侧 VAD 与云端 ASR,转录准确率 96%,覆盖 12 种语言。

发布与覆盖  

– 立即上线:Plus/Pro/Team 用户全平台可用,免费版将分批开放  

– 硬件优化:针对 iPhone 15 系列与 Pixel 9 做了适配,低功耗模式下续航影响<4%  

– API 计划:2026 Q1 面向开发者开放 RealtimeMultimodal 接口,可在第三方 App 内调用同款语音 + 视觉能力

OpenAI表示,这次整合是“ChatGPT 6.0 体验”的第一步,后续将加入购物比价、群聊语音等功能,持续拓展多模态边界。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享