OpenAI宣布不再单独设置“语音模式”入口,把实时语音和视觉结果直接融合进ChatGPT主聊天窗口。按住🎤就能一边说话一边看地图、图表、图片,文字转录同步生成,无需切换页面。

核心更新
– 多模态同屏:说话提问的同时,界面会实时呈现对应的视觉结果(路线地图、数据图、商品图片等),文字转录自动滚动显示
– 交流无打断:可连续追问,模型在语音回复的同时更新画面,平均延迟<300ms
– 一键回旧版:设置→语音→“沉浸式音频模式”中可切换回旧的独立界面,满足纯音频使用偏好
技术底座
本次语音由 GPT-5.1-large 搭配多模态视觉编码器驱动,支持 100k tokens 上下文;语音侧采用端侧 VAD 与云端 ASR,转录准确率 96%,覆盖 12 种语言。
发布与覆盖
– 立即上线:Plus/Pro/Team 用户全平台可用,免费版将分批开放
– 硬件优化:针对 iPhone 15 系列与 Pixel 9 做了适配,低功耗模式下续航影响<4%
– API 计划:2026 Q1 面向开发者开放 RealtimeMultimodal 接口,可在第三方 App 内调用同款语音 + 视觉能力
OpenAI表示,这次整合是“ChatGPT 6.0 体验”的第一步,后续将加入购物比价、群聊语音等功能,持续拓展多模态边界。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?