MOSS-Speech开源：国内首款语音到语音大模型，不再依赖文本中介-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

复旦大学MOSS团队发布了全新MOSS-Speech，首度实现端到端的语音到语音对话；目前已在Hugging Face提供在线演示，权重与源码同步开放。MOSS-Speech采用“分层拆解”思路：保留并冻结原MOSS文本模型参数，额外加入语音理解、语义对齐和神经声码器三层，能一次完成语音问答、情感模仿与笑声生成，无需传统的ASR→LLM→TTS三级流水线。

测评结果表明，MOSS-Speech在ZeroSpeech2025无文本语音赛道上，将WER降低到4.1%，情感识别准确率达到91.2%，整体超过Meta的SpeechGPT与Google AudioLM；中文口语主观MOS评分为4.6，逼近真人录音的4.8。项目同时提供48kHz超采样版本和16kHz轻量版本，其中轻量版可在单张RTX4090上实现实时推理，延迟<300ms，适合移动端落地。

团队表示，后续会推出并开源“语音控制版”MOSS-Speech-Ctrl，可用口令动态调节语速、音色和情感强度，预计2026年Q1发布。MOSS-Speech已提供商用授权，开发者可在GitHub获取训练与微调脚本，在本地完成私有声音克隆与角色化配音。