MOSS-Speech开源:国内首款语音到语音大模型,不再依赖文本中介

复旦大学MOSS团队发布了全新MOSS-Speech,首度实现端到端的语音到语音对话;目前已在Hugging Face提供在线演示,权重与源码同步开放。MOSS-Speech采用“分层拆解”思路:保留并冻结原MOSS文本模型参数,额外加入语音理解、语义对齐和神经声码器三层,能一次完成语音问答、情感模仿与笑声生成,无需传统的ASR→LLM→TTS三级流水线。

image.png

测评结果表明,MOSS-Speech在ZeroSpeech2025无文本语音赛道上,将WER降低到4.1%,情感识别准确率达到91.2%,整体超过Meta的SpeechGPT与Google AudioLM;中文口语主观MOS评分为4.6,逼近真人录音的4.8。项目同时提供48kHz超采样版本和16kHz轻量版本,其中轻量版可在单张RTX4090上实现实时推理,延迟<300ms,适合移动端落地。

image.png

团队表示,后续会推出并开源“语音控制版”MOSS-Speech-Ctrl,可用口令动态调节语速、音色和情感强度,预计2026年Q1发布。MOSS-Speech已提供商用授权,开发者可在GitHub获取训练与微调脚本,在本地完成私有声音克隆与角色化配音。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享