阿里通义千问开源 Qwen3-TTS:97ms低延迟、3秒克隆与一句话定制,刷新实时语音体验

昨晚,通义千问团队正式推出并开源了 Qwen3-TTS 全系语音生成模型。消息迅速在开源社区引发关注,被不少人视为语音合成的新里程碑。该系列采用端到端方案,支持秒级音色克隆、用自然语言定制声音,以及实时流式输出,让实时应用接入更简单。

image.png

Dual-Track双轨架构带来极致低延迟

Qwen3-TTS 的关键突破,是采用 Dual-Track 双轨的混合流式生成机制,结合离散多码本语言模型,直接端到端生成语音,避免传统级联方案(如 LM+DiT)可能出现的信息瓶颈。实测端到端延迟最低可达 97ms,输入一个字就能输出首包音频。这种极致响应速度,非常适合直播互动、同声翻译、智能客服等对时延敏感的场景。

3秒快速克隆 + 跨语种/方言顺畅迁移

它的语音克隆能力格外亮眼:只需 3 秒参考音频,就能在零样本条件下高保真复刻音色。克隆后的声音可无缝跨语种使用——中文音色直接说英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等 10 种主流语言,同时保留原有音色特点。更进一步,还能自然呈现四川话、北京话等多种中文方言,口音与神韵高度还原,为多语言创作与本地化应用打开更多可能。

一句话就能“从无到有”定制新音色

除了克隆,Qwen3-TTS 还内置 Voice Design 功能,用户用自然语言即可定制声音。例如“用温柔、鼓励的成熟女声讲故事”或“高亢、激动的年轻男声解说游戏”,模型会自动调整语调、情感和节奏,生成高度个性化的表达。这种“想到什么就能听到什么”的控制,在有声书制作中特别实用——一个人即可配多位角色,情绪起伏与方言切换都能轻松把握,沉浸感与效率显著提升。

1.7B 与 0.6B 两个规格,性能与效率可自由权衡

Qwen3-TTS 系列提供两种参数规模:

-1.7B 模型:性能最强,可控性更好,适合对音质与表现力要求极高的云端场景;

-0.6B 模型:在确保合成质量的同时,推理更高效、资源更省,适合边缘设备或高并发部署。

官方已将完整系列(包含 Base、VoiceDesign、CustomVoice 等)开源到 GitHub 与 Hugging Face,支持全参数微调,开发者可轻松打造品牌专属声音形象。

随着 Qwen3-TTS 的开源,实时、个性化与多语言语音 AI 的门槛显著下降。无论是内容创作者、开发者,还是企业应用,都有望迎来新一轮语音交互升级。

项目地址:https://github.com/QwenLM/Qwen3-TTS

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享