阿里发布新语音模型“百聆”:3秒采样实现多语言与情绪一键切换

阿里巴巴通义大模型宣布,“百聆”系列语音模型迎来大升级并正式开源。本次更新带来两款语音模型,只需一段3秒语音,便可快速切到9种语言与18种方言(含普通话、粤语、日语、英语等),还能模仿开心、愤怒等多种情绪。

此次迭代中,Fun-CosyVoice3提升明显:首包延迟砍半,中英混说更准。音色克隆能力也更强,用户提供≥3秒录音即可还原音色并合成新语音,让实时语音助手、直播配音、无障碍阅读等场景更高效、更易用。

image.png

Fun-ASR 同样进步明显:在噪声环境下准确率达93%。它支持歌词与说唱识别,可多语自由混说,覆盖多类中文方言与口音。为提升交互体验,流式识别首字延迟降至160毫秒,语音对话更顺滑。

此外,这两款模型均支持本地部署与二次开发,开发者可按需定制。开源地址已发布,欢迎前往相关平台体验与使用,推动语音技术在更多场景落地。

GitHub:https://github.com/FunAudioLLM/CosyVoice

划重点:  

🌐 ** 多语覆盖 **: 3秒语音即可在9种语言、18种方言间快速切换。  

⚙️ ** 体验升级 **: 延迟降低50%,准确率提升,语音交互更流畅。  

📦 ** 开源可定制 **: 支持本地部署与二次开发,便于个性化应用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享