Hume AI开源TADA：TTS零幻觉、提速5倍，手机也能跑700秒长音频-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Hume AI 最近开源上线了其最新语音生成模型 TADA（Text-Acoustic Dual Alignment）。这是一套基于大语言模型的文本转语音（TTS）系统，采用创新的“文本—声学”双对齐架构，在生成效率、稳定性以及适用场景上都有明显提升。

官方介绍称，TADA 通过让文本 token 与声学表示做到 1:1 严格同步，从根源解决了传统 LLM TTS 常见的 token 级内容幻觉问题。在对 1000+ 测试样本的评估中，该模型实现了内容幻觉为零的表现。

性能方面，TADA 相比同级LLM TTS 的生成速度提升超过 5 倍，同时资源占用极低：生成 1 秒音频仅需 2–3 帧计算，而传统方法通常需要 12.5 至 75 帧。因此，它可以在手机、边缘设备等低功耗硬件上直接本地推理，无需依赖云端。

TADA 支持多种语言（包含中文），多语言版本基于 Llama 3.2 的 3B 规模，并提供 1B（偏英语）和 3B 多语言预训练模型。模型具备 2048 token 的上下文窗口，一次即可生成约 700 秒的连续音频；而在相同 token 限制下，传统方案通常只能做到约 70 秒。

另一项关键亮点是“同步转录”：模型在生成语音的同时就能输出对应文本，无需额外跑独立 ASR 流程，文字几乎零额外延迟。对实时字幕、语音交互与内容创作等场景非常实用。

在人类主观评测中，TADA 的自然度与音色相似度排名第二，超过多款参数更大、数据更多的系统，语音质量竞争力十足。

开源地址：https://huggingface.co/collections/HumeAI/tada

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

Hume AI开源TADA：TTS零幻觉、提速5倍，手机也能跑700秒长音频