小米重磅开源 OmniVoice：支持600+语言零样本语音克隆TTS，中文WER 仅0.84%、合成比实时快40倍，小语种轻松复刻-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

小米重磅开源 OmniVoice：支持600+语言零样本语音克隆TTS，中文WER 仅0.84%、合成比实时快40倍，小语种轻松复刻

拥抱AI，AIGC最佳实践者

535

近日，小米旗下下一代 Kaldi 团队（k2-fsa）正式开源 OmniVoice。这是一款面向 600+ 语言的超大规模多语零样本文本转语音（TTS）模型，在中英文及多语基准测试中多项核心指标达到 SOTA（State-of-the-Art），为语音合成带来新的突破。

性能领先：中文 WER 降至 0.84%，多语言表现超越主流商用模型

在 Seed-TTS 中文测试集上，OmniVoice 的词错误率（WER）仅为 0.84%。在多语言 benchmark 中，其相似度（SIM-o）与 WER 指标均优于 ElevenLabs v2 和 MiniMax 等知名模型，展现出更高的语音自然度与清晰度。

极速推理：RTF 低至 0.025，合成速度比实时快 40 倍

OmniVoice 的实时因子（RTF）低至 0.025，合成速度远超实时需求，效率显著提升。在实际应用中可快速生成长文本语音，带来更流畅的使用体验。

核心架构创新：扩散语言模型风格的离散非自回归设计

OmniVoice 采用扩散语言模型风格的离散非自回归架构，可直接从文本一步生成语音，省去传统的中间语义 token 阶段。配合全码本随机掩码策略与预训练 LLM 初始化，进一步提升训练效率与最终输出的清晰度和可懂度。

灵活语音克隆与定制：3-10 秒参考音频即可实现

仅需 3-10 秒参考音频即可完成高质量零样本语音克隆。用户还可通过自然语言描述定制声音属性，包括性别、年龄、音高、口音、方言等，甚至能生成耳语风格等特殊效果。

支持非语言符号与精细发音控制

OmniVoice 能识别非语言符号，例如 [laughter] 表示笑声；同时支持通过拼音或音标进行发音纠正，特别适用于中文及方言的精准合成。

600+ 语种覆盖：助力小语种与濒危语言数字化保护

OmniVoice 的最大亮点在于超广的语言覆盖范围，从主流语种到众多低资源语言都能高效支持。对于小语种和濒危语言而言，只需少量样本就能生成高质量语音，有助于语言文化的数字化保存与保护。

OmniVoice 的代码和预训练模型已在 GitHub 与 Hugging Face 开源，开发者可轻松本地部署或集成到应用中。社区将持续关注 OmniVoice 的反馈与实际案例，欢迎开发者分享使用体验。

项目地址：https://github.com/k2-fsa/OmniVoice

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐