Hume AI开源TADA:TTS零幻觉、提速5倍,手机也能跑700秒长音频

Hume AI 最近开源上线了其最新语音生成模型 TADA(Text-Acoustic Dual Alignment)。这是一套基于大语言模型的文本转语音(TTS)系统,采用创新的“文本—声学”双对齐架构,在生成效率、稳定性以及适用场景上都有明显提升。

官方介绍称,TADA 通过让文本 token 与声学表示做到 1:1 严格同步,从根源解决了传统 LLM TTS 常见的 token 级内容幻觉问题。在对 1000+ 测试样本的评估中,该模型实现了内容幻觉为零的表现。

性能方面,TADA 相比同级LLM TTS 的生成速度提升超过 5 倍,同时资源占用极低:生成 1 秒音频仅需 2–3 帧计算,而传统方法通常需要 12.5 至 75 帧。因此,它可以在手机、边缘设备等低功耗硬件上直接本地推理,无需依赖云端。

TADA 支持多种语言(包含中文),多语言版本基于 Llama 3.2 的 3B 规模,并提供 1B(偏英语)和 3B 多语言预训练模型。模型具备 2048 token 的上下文窗口,一次即可生成约 700 秒的连续音频;而在相同 token 限制下,传统方案通常只能做到约 70 秒。

另一项关键亮点是“同步转录”:模型在生成语音的同时就能输出对应文本,无需额外跑独立 ASR 流程,文字几乎零额外延迟。对实时字幕、语音交互与内容创作等场景非常实用。

在人类主观评测中,TADA 的自然度与音色相似度排名第二,超过多款参数更大、数据更多的系统,语音质量竞争力十足。

开源地址:https://huggingface.co/collections/HumeAI/tada

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享