阿里巴巴通义实验室宣布开源全新一代端到端语音交互大模型 Fun-Audio-Chat-8B。它以超低延迟、自然顺滑的语音交流为核心,意味着开源语音AI进入了新阶段。该模型不仅能实时理解你说的话,还能感知情绪变化,整体表现已逼近闭源的 GPT-4o Audio 和 Gemini 2.5 Pro。AIbase独家解读:Fun-Audio-Chat并不只是“聊天工具”,更像一个真正的“AI语音伙伴”。

你只要开口说,模型就能边听边想并用自然语音回应,摆脱传统 ASR+LLM+TTS 多模块串联带来的等待感。基于端到端 Speech-to-Speech(S2S)架构,互动更像与真人对话,顺畅且跟手。
核心技术亮点 超低延迟与高效设计:采用创新的双分辨率架构(5Hz 共享骨干 + 25Hz 细粒度头部),GPU 算力开销可降约 50%,响应更快,特别适合实时应用落地。
更懂你的情绪:模型能从语气、语速、停顿等细节里捕捉心情变化(如愉悦、疲惫或生气)。即便你没有明说,它也能给出更有共情的回复,让交流更贴心。
语音函数调用更强:支持 Voice Function Calling,用自然语音就能触发复杂操作,比如“播放音乐”“拨打电话”,真正实现只动嘴不动手。

领先表现:在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多项国际权威评测中,Fun-Audio-Chat-8B 在同尺寸模型中位列第一;综合能力超过 GLM4-Voice、Kimi-Audio、Baichuan-Omni 等开源方案,部分指标已对标甚至超越闭源顶级模型。
丰富应用能力 实时回答语音问题(如快速概括一段语音内容);
准确识别情绪、音色和口令;
支持多语种翻译与角色扮演;
可生成多种情感风格的语音(如温柔、严肃、开心);
适配情感陪伴、智能家居控制、语音客服等场景。
AIbase观点:此次开源提供完整 8B 模型权重、推理代码与 Function Call 示例,极大降低上手难度,进一步推动语音AI生态加速发展。开发者可前往 GitHub、Hugging Face 或 ModelScope 立即下载体验,开启你的“高情商”语音AI之旅!
项目地址:https://funaudiollm.github.io/funaudiochat/

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?