阿里巴巴发布新品 Qwen 语音模型，三秒录音即可复刻嗓音-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，阿里云计算的 Qwen 团队推出两款全新的 AI 语音模型，支持用文本指令生成声音或进行声音复刻。

其中，Qwen3-TTS-VD-Flash 可按细致的文字描述合成声音，用户可以精确设置情绪、说话节奏等特征。

比如，你可以要求生成“中年男士、浑厚的男中音——充满活力的广告旁白，语速偏快，音调起伏夸张，带强烈带货感”。官方称该模型在性能上优于 OpenAI 近期发布的 GPT-4o mini-tts API。

另一款 Qwen3-TTS-VC-Flash，仅需约三秒的语音样本就能复制嗓音，并可在十种语言中复现。Qwen 表示，相比市面上的 Elevenlabs 或 MiniMax，该模型的错误率更低。

此外，这套 AI 还能处理复杂文本、模仿动物叫声，并可从录音中提取并还原人声。两款模型均可通过阿里云 API 调用，用户也能在 Hugging Face 上体验“声音设计”和“声音克隆”的在线演示。

划重点:

🌟 新版 Qwen 模型支持用文字生成与复刻声音。

🎤 Qwen3-TTS-VC-Flash 三秒录音即可复制嗓音，覆盖十种语言。

🚀 模型性能优于同类产品，胜任复杂文本与多样声音模仿。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

阿里巴巴发布新品 Qwen 语音模型，三秒录音即可复刻嗓音