阿里通义发布并开源语音交互大模型 Fun-Audio-Chat-8B：超低延迟，会懂情绪-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

阿里巴巴通义实验室宣布开源全新一代端到端语音交互大模型 Fun-Audio-Chat-8B。它以超低延迟、自然顺滑的语音交流为核心，意味着开源语音AI进入了新阶段。该模型不仅能实时理解你说的话，还能感知情绪变化，整体表现已逼近闭源的 GPT-4o Audio 和 Gemini 2.5 Pro。AIbase独家解读：Fun-Audio-Chat并不只是“聊天工具”，更像一个真正的“AI语音伙伴”。

你只要开口说，模型就能边听边想并用自然语音回应，摆脱传统 ASR+LLM+TTS 多模块串联带来的等待感。基于端到端 Speech-to-Speech（S2S）架构，互动更像与真人对话，顺畅且跟手。

核心技术亮点超低延迟与高效设计：采用创新的双分辨率架构（5Hz 共享骨干 + 25Hz 细粒度头部），GPU 算力开销可降约 50%，响应更快，特别适合实时应用落地。

更懂你的情绪：模型能从语气、语速、停顿等细节里捕捉心情变化（如愉悦、疲惫或生气）。即便你没有明说，它也能给出更有共情的回复，让交流更贴心。

语音函数调用更强：支持 Voice Function Calling，用自然语音就能触发复杂操作，比如“播放音乐”“拨打电话”，真正实现只动嘴不动手。

领先表现：在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多项国际权威评测中，Fun-Audio-Chat-8B 在同尺寸模型中位列第一；综合能力超过 GLM4-Voice、Kimi-Audio、Baichuan-Omni 等开源方案，部分指标已对标甚至超越闭源顶级模型。

丰富应用能力实时回答语音问题（如快速概括一段语音内容）;

准确识别情绪、音色和口令;

支持多语种翻译与角色扮演;

可生成多种情感风格的语音（如温柔、严肃、开心）;

适配情感陪伴、智能家居控制、语音客服等场景。

AIbase观点：此次开源提供完整 8B 模型权重、推理代码与 Function Call 示例，极大降低上手难度，进一步推动语音AI生态加速发展。开发者可前往 GitHub、Hugging Face 或 ModelScope 立即下载体验，开启你的“高情商”语音AI之旅！

项目地址：https://funaudiollm.github.io/funaudiochat/