阿里云 Qwen 上新语音模型：三秒音频即可复刻嗓音-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，阿里云计算旗下 Qwen 团队发布两款全新 AI 语音模型，支持用文字指令生成或克隆声音。其中，Qwen3-TTS-VD-Flash 可按用户的详细描述来合成声音，像情绪、语速、节奏等都能精细设定。

举例来说，用户可以让模型生成一位“中年男士，浑厚的男中音——活力十足的广告旁白，语速偏快，音高起伏夸张，带强烈销售感的声音”。官方表示，该模型在性能上优于 OpenAI 近期推出的 GPT-4o mini-tts API。

另一款 Qwen3-TTS-VC-Flash 仅需约三秒的样本音频就能复刻声音，并可在十种语言中进行表达。Qwen 称，这一模型的错误率低于业界对手，如 Elevenlabs 和 MiniMax。

此外，这两款模型还能理解复杂文本、模仿动物叫声，并可从录音中分离并提取人声。用户可通过阿里云 API 使用它们，也能在 Hugging Face 上体验声音设计与克隆的在线演示。

划重点:

🌟 新款 Qwen 模型可按文字描述生成与克隆声音。

🎤 Qwen3-TTS-VC-Flash 用三秒音频即可复刻嗓音，覆盖十种语言。

🚀 官方称模型表现优于竞品，能应对复杂文本并支持多种声音风格。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

阿里云 Qwen 上新语音模型：三秒音频即可复刻嗓音