阿里通义千问开源 Qwen3-TTS:97ms超低延迟合成,3秒克隆+一句话定制音色,刷新实时AI语音体验

昨晚,阿里通义千问团队宣布全面开源 Qwen3-TTS 语音生成模型家族。该消息迅速刷屏开源圈,被不少人认为是语音合成的关键进步。Qwen3-TTS 采用端到端方案,支持秒级音色克隆、用自然语言设计音色,以及实时流式输出,显著降低了做实时语音的门槛。

image.png

Dual-Track双轨架构实现极致低延迟

Qwen3-TTS 的核心亮点是 Dual-Track 双轨混合流式生成机制,配合离散多码本语言模型,直接端到端建模语音,避免传统级联架构(如 LM+DiT)带来的信息瓶颈。实测端到端延迟最低可达 97ms,输入只需 1 个字就能输出首包音频。这样的极致响应速度,非常适合直播互动、实时翻译、AI 智能客服等对时延敏感的场景。

3秒极速克隆 + 跨语言/方言零损失迁移

它的语音克隆能力尤为亮眼:只需 3 秒参考音频,就能高保真地零样本复刻音色。克隆后的声音可无缝跨语种使用——中文音色可直接说英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等 10 种常见语言,同时保留原本的音色特征。除此之外,还能自然说四川话、北京话等多种中文方言,口音与神韵都能很好还原,为多语言创作和本地化应用带来更多可能。

一句话“凭空”设计全新音色

除了克隆,Qwen3-TTS 还提供强大的 Voice Design 功能。用户只需用自然语言下指令,就能定制声音,比如“用温柔鼓励的成熟女声讲述故事”或“高亢兴奋的年轻男性解说游戏”。模型会自动调整语调、情感和节奏,生成高度个性化的表达。对有声书制作尤其友好——一个人就能演多个角色,情绪起伏、方言切换都能拿捏,沉浸感与效率双提升。

1.7B与0.6B双尺寸,性能与效率自由取舍

Qwen3-TTS 家族提供两种参数规模:

-1.7B模型:综合表现最强,控制能力突出,适合对音质与表现力要求极高的云端场景;

-0.6B模型:在保证优秀合成质量的前提下,实现更快的推理与更低的资源占用,适合边缘设备或高并发部署。

官方已把完整系列(含 Base、VoiceDesign、CustomVoice 等)开源到 GitHub 与 Hugging Face,且支持全参数微调,开发者可轻松打造品牌专属的语音形象。

随着 Qwen3-TTS 的开源,即时、个性化、多语言的语音 AI 门槛明显降低。无论是内容创作者、开发者还是企业级应用,都会迎来一波新的语音交互升级。

项目地址:https://github.com/QwenLM/Qwen3-TTS

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享