“一开口就是角色”!阿里 Qwen3-TTS 发布:49音色、10语言+9方言,WER 领先主流商用

阿里巴巴宣布 Qwen3 家族最新成员 Qwen3-TTS 亮相,主打“零样本、多角色、跨语种”的语音合成。该模型在国际词错误率(WER)基准上明显领先于主流商用引擎,现已在阿里云控制台上线,开发者可0元领取每月100万字符额度。

 49种高品质音色,一键切换角色  

从甜美少女到方言男声,Qwen3-TTS 内置49款官方音色,覆盖旁白、客服、直播、教育等应用场景;支持10种语言 + 9种中国方言(含粤语、四川话、东北话等),同一段文本可在秒级切换音色,无需重新训练。

image.png

文本→语气→节奏,全自动“拟人化”  

模型采用自回归声学模型与韵律预测模块,可依据标点与情感标签自动升降调、加停顿;在48kHz 采样率下,MOS 得分达4.53,显著高于行业均值4.1。

WER 明显领先商用模型  

在多语种语音合成公开测试集(MLS + Common Voice)上,Qwen3-TTS 英文 WER 低至2.8%,中文降至1.9%,相比 Azure TTS 分别再降18%与24%,刷新开源最佳表现。

教育场景“零样本”落地  

阿里云同步上线“一键朗读”插件,教师上传 PPT 即可自动生成带方言的讲解音频,目前已在上海120所中小学试点,让学生用“家乡话”听写与记忆。

定价与入口  

– 免费层:每月100万字符,49种音色不限调用  

– 付费层:0.8元/万字符,支持 SSML 与实时流式合成  

– 控制台:console.aliyun.com → 人工智能 → 语音合成 → Qwen3-TTS(已全量开放)

下一步计划  

阿里表示,2025年Q1将开放“10秒音色克隆”接口,用户上传短音频即可生成专属说话人,并将推出80kHz 超采样版本,面向播客、有声书与虚拟偶像等场景。

行业观察  

TTS 赛道正从“能听懂”迈向“能演角色”。Qwen3-TTS 以开源与低价组合对标 Azure、AWS 商用服务,同时为直播、客服、教育三大场景提供“零样本”落地路径。随着克隆音色与超采样版本推出,语音生成有望进入“人人都能配旁白”的新阶段。我们将持续关注其克隆接口开放进度与商用案例。

项目地址:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享