音频生成正在从级联方案迈向端到端的新范式。为解决传统 TTS 使用“梅尔频谱”作为中间表征带来的信息丢失与误差叠加,美团 LongCat 团队今日正式发布并开源 LongCat-AudioDiT(提供 1B/3.5B 两个版本)。该模型在波形潜空间直接建模,将零样本语音克隆的表现推至新高。

核心架构:全面告别梅尔频谱
LongCat-AudioDiT 不再采用“预测声学特征+神经声码器”的多阶段流程,转而以 Wav-VAE(波形变分自编码器) 与 DiT(扩散 Transformer) 组成的精简架构。
-
高效 Wav-VAE: 采用全卷积设计,将 24 kHz 波形约压缩 2000 倍至 11.7 Hz 帧率。借助无参数捷径分支与多目标对抗训练,确保重建波形既保留精准的时频结构,又具备出色的自然听感。
-
语义增强 DiT: 创新地融合 UMT5 文本编码器的原始词嵌入与顶层隐藏状态,弥补高层语义中丢失的音素细节,大幅提升生成语音的可懂度。
推理优化:精准解决音色漂移
为进一步提升生成质量,团队引入两项关键改进:
-
双重约束机制: 定位并修复了流匹配 TTS 长期存在的“训练与推理不一致”问题。通过在推理阶段强制重置提示区域(Prompt)隐变量,从根源上解决说话人音色漂移与稳定性不足。
-
自适应投影引导(APG): 替代传统的无分类器引导(CFG)。APG 能精准保留引导信号中的有效成分,抑制造成音质劣化的部分,在不引发频谱“过饱和”的前提下,显著提升语音自然度。
性能表现:SOTA 级克隆精度
在 Seed 基准测试中,LongCat-AudioDiT 展现出统治级表现:
-
相似度(SIM): 3.5B 模型在 Seed-ZH 测试集达到 0.818,在 Seed-Hard 难句测试集达到 0.797,均超越 Seed-TTS、CosyVoice3.5 及 MiniMax-Speech 等主流模型。
-
准确率: 英文 WER(1.50%)与中文难句 CER(6.04%)等指标均处于行业第一梯队。
值得一提的是,LongCat-AudioDiT 仅用 ASR 转写的预训练数据进行单阶段训练,便取得了优于多阶段方案的成绩。目前,相关论文、代码与模型权重已在
地址:
GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT


















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?