阿里发布新语音模型“百聆”:3秒录音即可切换多语言与情感

阿里巴巴通义团队宣布,“百聆”系列语音模型迎来大升级并正式开源。此次推出的两款模型,只需约三秒的语音样本,即可在多达九种语言与十八种方言间自由切换,覆盖普通话、粤语、日语、英语等;同时还能合成带有开心、愤怒等多种情绪的语音效果。

本次更新中,Fun-CosyVoice3 的表现提升明显:首包延迟下降50%,中英混说的表现更准更稳。音色克隆能力也同步增强,提供三秒以上录音即可还原音色并生成新语音,适用于实时语音助手、直播配音、无障碍阅读等场景,效率与体验全面提升。

image.png

Fun-ASR 的识别能力同样加强:在噪声环境下准确率可达93%。该模型可识别歌词、说唱,并支持多语言自由混说,覆盖多种中文方言与口音。为优化交互体验,流式识别的首字延迟降至约160毫秒,语音对话更流畅。

此外,这两款模型均支持本地部署与二次开发,开发者可按需进行个性化定制。开源地址已同步公布,欢迎前往相关平台体验与使用,推动语音技术在更多领域落地应用。

GitHub:https://github.com/FunAudioLLM/CosyVoice

划重点:  

🌐 ** 多语言支持 **: 3秒录音即可在9种语言与18种方言间切换。  

⚙️ ** 技术升级 **: 延迟下降50%,准确率提升,语音交互更顺滑。  

📦 ** 开源开放 **: 支持本地部署与二次开发,便于个性化应用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享