阿里通义千问上线新一代语音合成模型 Qwen3-TTS,现已通过 Qwen API 面向全球开发者免费开放。它内置 49 种角色音色,覆盖 10 门常用语言和 10 种中国方言。官方称,在 MiniMax TTS multilingual test set 的平均词错误率(WER)优于 MiniMax 与 ElevenLabs,听感与真人非常接近。

49种音色即选即用
– 角色库:覆盖不同性别、年龄、地域与人设——如「撒娇搞怪茉兔」「严厉老师墨讲师」「智慧老者沧明子」等,点一下就能切
– 场景适配:适用于播客、有声书、游戏NPC、智能客服等,秒换音色,不用再训练
10语10方言,跨语种WER领先
– 主流语言:支持中文、英文、德语、意大利语、法语等共10种
– 方言列表:提供普通话、粤语、四川话等10种方言,保留原汁原味的口音与语调
– 客观指标:在 MiniMax TTS multilingual test set 上,平均 WER 低于 ElevenLabs,合成准确率约提升 12%

韵律与语速:文本驱动,真人级自然度
– 自适应语速:会随文本情绪自动调节语速与停顿
– 韵律模型:做音节级重音和语调预测,MOS 评分 4.6,接近真人的 4.8
– 实时流式:首包延迟<300ms,适合直播配音和实时对话
免费接入 & 商用友好
– API定价:现阶段免费,无调用次数上限
– 授权条款:默认可商用,无需另外支付授权费
– 集成示例:一条 HTTPS 请求即可接入,用约 10 行代码就能播报语音
下一步:方言克隆 + 边缘部署
阿里表示,2025 年 Q1 将上线「方言语音克隆」,用 5 秒音频就能复刻本地方言;Q2 还会推出边缘盒子,支持离线局域网部署,面向智慧景区、车载语音等场景。
编辑结语
当语音合成进入「音色=角色」的新阶段,Qwen3-TTS 以 49 种人设、10 种方言加免费 API 做出明显差异:无需训练就能秒换声,WER 直对国际付费引擎。对播客、游戏、客服这类重语音、重风格的应用来说,配音与后期成本被拉到接近零。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?