“一开口就是角色”！阿里 Qwen3-TTS 发布：49音色、10语言+9方言，WER 领先主流商用-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

“一开口就是角色”！阿里 Qwen3-TTS 发布：49音色、10语言+9方言，WER 领先主流商用

拥抱AI，AIGC最佳实践者

625

阿里巴巴宣布 Qwen3 家族最新成员 Qwen3-TTS 亮相，主打“零样本、多角色、跨语种”的语音合成。该模型在国际词错误率（WER）基准上明显领先于主流商用引擎，现已在阿里云控制台上线，开发者可0元领取每月100万字符额度。

49种高品质音色，一键切换角色

从甜美少女到方言男声，Qwen3-TTS 内置49款官方音色，覆盖旁白、客服、直播、教育等应用场景；支持10种语言 + 9种中国方言（含粤语、四川话、东北话等），同一段文本可在秒级切换音色，无需重新训练。

文本→语气→节奏，全自动“拟人化”

模型采用自回归声学模型与韵律预测模块，可依据标点与情感标签自动升降调、加停顿；在48kHz 采样率下，MOS 得分达4.53，显著高于行业均值4.1。

WER 明显领先商用模型

在多语种语音合成公开测试集（MLS + Common Voice）上，Qwen3-TTS 英文 WER 低至2.8%，中文降至1.9%，相比 Azure TTS 分别再降18%与24%，刷新开源最佳表现。

教育场景“零样本”落地

阿里云同步上线“一键朗读”插件，教师上传 PPT 即可自动生成带方言的讲解音频，目前已在上海120所中小学试点，让学生用“家乡话”听写与记忆。

定价与入口

– 免费层：每月100万字符，49种音色不限调用

– 付费层：0.8元/万字符，支持 SSML 与实时流式合成

– 控制台：console.aliyun.com → 人工智能 → 语音合成 → Qwen3-TTS（已全量开放）

下一步计划

阿里表示，2025年Q1将开放“10秒音色克隆”接口，用户上传短音频即可生成专属说话人，并将推出80kHz 超采样版本，面向播客、有声书与虚拟偶像等场景。

行业观察

TTS 赛道正从“能听懂”迈向“能演角色”。Qwen3-TTS 以开源与低价组合对标 Azure、AWS 商用服务，同时为直播、客服、教育三大场景提供“零样本”落地路径。随着克隆音色与超采样版本推出，语音生成有望进入“人人都能配旁白”的新阶段。我们将持续关注其克隆接口开放进度与商用案例。

项目地址：https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐