Hume AI 最近开源上线了其最新语音生成模型 TADA(Text-Acoustic Dual Alignment)。这是一套基于大语言模型的文本转语音(TTS)系统,采用创新的“文本—声学”双对齐架构,在生成效率、稳定性以及适用场景上都有明显提升。
官方介绍称,TADA 通过让文本 token 与声学表示做到 1:1 严格同步,从根源解决了传统 LLM TTS 常见的 token 级内容幻觉问题。在对 1000+ 测试样本的评估中,该模型实现了内容幻觉为零的表现。
性能方面,TADA 相比同级LLM TTS 的生成速度提升超过 5 倍,同时资源占用极低:生成 1 秒音频仅需 2–3 帧计算,而传统方法通常需要 12.5 至 75 帧。因此,它可以在手机、边缘设备等低功耗硬件上直接本地推理,无需依赖云端。
TADA 支持多种语言(包含中文),多语言版本基于 Llama 3.2 的 3B 规模,并提供 1B(偏英语)和 3B 多语言预训练模型。模型具备 2048 token 的上下文窗口,一次即可生成约 700 秒的连续音频;而在相同 token 限制下,传统方案通常只能做到约 70 秒。
另一项关键亮点是“同步转录”:模型在生成语音的同时就能输出对应文本,无需额外跑独立 ASR 流程,文字几乎零额外延迟。对实时字幕、语音交互与内容创作等场景非常实用。
在人类主观评测中,TADA 的自然度与音色相似度排名第二,超过多款参数更大、数据更多的系统,语音质量竞争力十足。
开源地址:https://huggingface.co/collections/HumeAI/tada

















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?