小米重磅开源 OmniVoice:支持600+语言零样本语音克隆TTS,中文WER 仅0.84%、合成比实时快40倍,小语种轻松复刻

近日,小米旗下下一代 Kaldi 团队(k2-fsa)正式开源 OmniVoice。这是一款面向 600+ 语言的超大规模多语零样本文本转语音(TTS)模型,在中英文及多语基准测试中多项核心指标达到 SOTA(State-of-the-Art),为语音合成带来新的突破。

性能领先:中文 WER 降至 0.84%,多语言表现超越主流商用模型

在 Seed-TTS 中文测试集上,OmniVoice 的词错误率(WER)仅为 0.84%。在多语言 benchmark 中,其相似度(SIM-o)与 WER 指标均优于 ElevenLabs v2 和 MiniMax 等知名模型,展现出更高的语音自然度与清晰度。

image.png

极速推理:RTF 低至 0.025,合成速度比实时快 40 倍

OmniVoice 的实时因子(RTF)低至 0.025,合成速度远超实时需求,效率显著提升。在实际应用中可快速生成长文本语音,带来更流畅的使用体验。

核心架构创新:扩散语言模型风格的离散非自回归设计

OmniVoice 采用扩散语言模型风格的离散非自回归架构,可直接从文本一步生成语音,省去传统的中间语义 token 阶段。配合全码本随机掩码策略与预训练 LLM 初始化,进一步提升训练效率与最终输出的清晰度和可懂度。

灵活语音克隆与定制:3-10 秒参考音频即可实现

仅需 3-10 秒参考音频即可完成高质量零样本语音克隆。用户还可通过自然语言描述定制声音属性,包括性别、年龄、音高、口音、方言等,甚至能生成耳语风格等特殊效果。

支持非语言符号与精细发音控制

OmniVoice 能识别非语言符号,例如 [laughter] 表示笑声;同时支持通过拼音或音标进行发音纠正,特别适用于中文及方言的精准合成。

600+ 语种覆盖:助力小语种与濒危语言数字化保护

OmniVoice 的最大亮点在于超广的语言覆盖范围,从主流语种到众多低资源语言都能高效支持。对于小语种和濒危语言而言,只需少量样本就能生成高质量语音,有助于语言文化的数字化保存与保护。

OmniVoice 的代码和预训练模型已在 GitHub 与 Hugging Face 开源,开发者可轻松本地部署或集成到应用中。社区将持续关注 OmniVoice 的反馈与实际案例,欢迎开发者分享使用体验。

项目地址:https://github.com/k2-fsa/OmniVoice

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享