阿里推出新一代 Qwen3-TTS:49 种音色,满足多场景配音

阿里通义千问上线新一代语音合成模型 Qwen3-TTS,现已通过 Qwen API 面向全球开发者免费开放。它内置 49 种角色音色,覆盖 10 门常用语言和 10 种中国方言。官方称,在 MiniMax TTS multilingual test set 的平均词错误率(WER)优于 MiniMax 与 ElevenLabs,听感与真人非常接近。

image.png

49种音色即选即用  

– 角色库:覆盖不同性别、年龄、地域与人设——如「撒娇搞怪茉兔」「严厉老师墨讲师」「智慧老者沧明子」等,点一下就能切  

– 场景适配:适用于播客、有声书、游戏NPC、智能客服等,秒换音色,不用再训练

10语10方言,跨语种WER领先  

– 主流语言:支持中文、英文、德语、意大利语、法语等共10种  

– 方言列表:提供普通话、粤语、四川话等10种方言,保留原汁原味的口音与语调  

– 客观指标:在 MiniMax TTS multilingual test set 上,平均 WER 低于 ElevenLabs,合成准确率约提升 12%

image.png

韵律与语速:文本驱动,真人级自然度  

– 自适应语速:会随文本情绪自动调节语速与停顿  

– 韵律模型:做音节级重音和语调预测,MOS 评分 4.6,接近真人的 4.8  

– 实时流式:首包延迟<300ms,适合直播配音和实时对话

免费接入 & 商用友好

– API定价:现阶段免费,无调用次数上限  

– 授权条款:默认可商用,无需另外支付授权费  

– 集成示例:一条 HTTPS 请求即可接入,用约 10 行代码就能播报语音

下一步:方言克隆 + 边缘部署  

阿里表示,2025 年 Q1 将上线「方言语音克隆」,用 5 秒音频就能复刻本地方言;Q2 还会推出边缘盒子,支持离线局域网部署,面向智慧景区、车载语音等场景。

编辑结语  

当语音合成进入「音色=角色」的新阶段,Qwen3-TTS 以 49 种人设、10 种方言加免费 API 做出明显差异:无需训练就能秒换声,WER 直对国际付费引擎。对播客、游戏、客服这类重语音、重风格的应用来说,配音与后期成本被拉到接近零。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享