OpenAI 语音 API 再升级:数字识别更准,智能代理最高快 40%

OpenAI 近日面向全球开发者推出两项重要 API 更新,重点提升 AI 智能体在语音对话和复杂任务流程中的整体表现。

在模型方面,全新的实时模型 gpt-realtime-1.5 及其配套音频模型正式上线,核心目标是让语音指令识别更稳定、更可靠。根据 OpenAI 内部测试结果,新模型在数字和字母的语音转录上准确率提升约 10%,在逻辑相关的音频任务上准确率提升约 5%,在指令执行上的准确率也提高了约 7%,显著改善了 AI 在听取关键短语或执行复杂语音命令时容易“听错”“做偏”的问题。

OpenAI

在系统架构层面,Responses API 现已支持 WebSocket 协议,这代表着 AI 与应用之间的通信方式迎来一次重要升级。与过去每次请求都需要把完整上下文重新发一遍不同,WebSocket 可以建立一个长久保持的连接,只在有新内容产生时按需增量传输。

OpenAI 表示,这项优化对那些需要频繁调用多个工具、执行复杂步骤的 AI 代理特别关键,整体运行速度最高可提升约 20%–40%。这两项升级不仅让 AI 的“听觉”更灵敏,也让它在“动手办事”时效率再上一个台阶。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享