正面刚 OpenAI：谷歌 Gemini2.5 实时音频性能登顶，函数调用准确率达71.5%-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

正面刚 OpenAI：谷歌 Gemini2.5 实时音频性能登顶，函数调用准确率达71.5%

拥抱AI，AIGC最佳实践者

5610

据媒体报道，谷歌本周为其原生音频模型 Gemini2.5Flash Native Audio 带来一次重要升级，意在把人机交互从简单的“文本转语音”推进到更贴近真人的实时沟通。

此次更新的关键在于“原生”处理能力。不同于传统流程需要先把语音转成文字再理解，这一模型能直接感知声音中的语调、情绪与停顿，从而实现更自然、顺畅的对话体验。

谷歌大模型Gemini

谷歌数据显示，新版本对开发者指令的遵循率已从84% 提升至 90%，在处理多步骤工作流时展现更高的准确性。在音频基准测试 ComplexFuncBench 中，其函数调用准确率达到 71.5%，超过 OpenAI gpt-realtime（66.5%），在实时语音代理（Live Voice Agents）领域竞争力十足。

目前，这项能力已全面接入 Google AI Studio、Vertex AI、Gemini Live 及 Search Live。开发者可通过 Gemini API 体验升级版模型，利用其更强的一致性与多轮对话记忆，打造更可靠、具情绪感知的 AI 助手。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐