ChatGPT把语音整合进主界面：说话看图同步、转录实时生成，还能一键回到旧版界面-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

ChatGPT把语音整合进主界面：说话看图同步、转录实时生成，还能一键回到旧版界面

拥抱AI，AIGC最佳实践者

7214

OpenAI宣布不再单独设置“语音模式”入口，把实时语音和视觉结果直接融合进ChatGPT主聊天窗口。按住🎤就能一边说话一边看地图、图表、图片，文字转录同步生成，无需切换页面。

核心更新

– 多模态同屏：说话提问的同时，界面会实时呈现对应的视觉结果（路线地图、数据图、商品图片等），文字转录自动滚动显示

– 交流无打断：可连续追问，模型在语音回复的同时更新画面，平均延迟<300ms

– 一键回旧版：设置→语音→“沉浸式音频模式”中可切换回旧的独立界面，满足纯音频使用偏好

技术底座

本次语音由 GPT-5.1-large 搭配多模态视觉编码器驱动，支持 100k tokens 上下文；语音侧采用端侧 VAD 与云端 ASR，转录准确率 96%，覆盖 12 种语言。

发布与覆盖

– 立即上线：Plus/Pro/Team 用户全平台可用，免费版将分批开放

– 硬件优化：针对 iPhone 15 系列与 Pixel 9 做了适配，低功耗模式下续航影响<4%

– API 计划：2026 Q1 面向开发者开放 RealtimeMultimodal 接口，可在第三方 App 内调用同款语音 + 视觉能力

OpenAI表示，这次整合是“ChatGPT 6.0 体验”的第一步，后续将加入购物比价、群聊语音等功能，持续拓展多模态边界。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐