据 AIbase 报道,谷歌本周为其原生音频模型 Gemini2.5Flash Native Audio 推出重要升级,目标是把 AI 互动从普通的“文本转语音”推进到更接近真人的实时交流。
升级的关键在于“原生”处理。不同于先把语音转成文字再处理的传统流程,该模型可直接理解声音里的语调、情绪与停顿,让对话更自然顺畅。

谷歌数据显示,新版本对开发者指令的遵循率已从84% 升至 90%,在多步骤工作流中表现更精准。在音频基准 ComplexFuncBench 上,其函数调用准确率达到 71.5%,超过 OpenAI gpt-realtime(66.5%),在实时语音代理(Live Voice Agents)领域展现出强劲竞争力。
目前,这项技术已接入 Google AI Studio、Vertex AI、Gemini Live 与 Search Live。开发者可通过 Gemini API 体验此次升级,借助更高的一致性与多轮对话记忆,打造更可靠、更具情绪感知的 AI 助手。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?