美团 LongCat-AudioDiT 开源：首推波形潜空间直建模，刷新零样本音色克隆 SOTA-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

美团 LongCat-AudioDiT 开源：首推波形潜空间直建模，刷新零样本音色克隆 SOTA

拥抱AI，AIGC最佳实践者

5412

音频生成正在从级联方案迈向端到端的新范式。为解决传统 TTS 使用“梅尔频谱”作为中间表征带来的信息丢失与误差叠加，美团 LongCat 团队今日正式发布并开源 LongCat-AudioDiT（提供 1B/3.5B 两个版本）。该模型在波形潜空间直接建模，将零样本语音克隆的表现推至新高。

核心架构：全面告别梅尔频谱

LongCat-AudioDiT 不再采用“预测声学特征+神经声码器”的多阶段流程，转而以 Wav-VAE（波形变分自编码器） 与 DiT（扩散 Transformer） 组成的精简架构。

高效 Wav-VAE: 采用全卷积设计，将 24 kHz 波形约压缩 2000 倍至 11.7 Hz 帧率。借助无参数捷径分支与多目标对抗训练，确保重建波形既保留精准的时频结构，又具备出色的自然听感。
语义增强 DiT: 创新地融合 UMT5 文本编码器的原始词嵌入与顶层隐藏状态，弥补高层语义中丢失的音素细节，大幅提升生成语音的可懂度。

推理优化：精准解决音色漂移

为进一步提升生成质量，团队引入两项关键改进：

双重约束机制: 定位并修复了流匹配 TTS 长期存在的“训练与推理不一致”问题。通过在推理阶段强制重置提示区域（Prompt）隐变量，从根源上解决说话人音色漂移与稳定性不足。
自适应投影引导（APG）: 替代传统的无分类器引导（CFG）。APG 能精准保留引导信号中的有效成分，抑制造成音质劣化的部分，在不引发频谱“过饱和”的前提下，显著提升语音自然度。

性能表现：SOTA 级克隆精度

在 Seed 基准测试中，LongCat-AudioDiT 展现出统治级表现：

相似度（SIM）: 3.5B 模型在 Seed-ZH 测试集达到 0.818，在 Seed-Hard 难句测试集达到 0.797，均超越 Seed-TTS、CosyVoice3.5 及 MiniMax-Speech 等主流模型。
准确率: 英文 WER（1.50%）与中文难句 CER（6.04%）等指标均处于行业第一梯队。

值得一提的是，LongCat-AudioDiT 仅用 ASR 转写的预训练数据进行单阶段训练，便取得了优于多阶段方案的成绩。目前，相关论文、代码与模型权重已在GitHub与HuggingFace全面开放。

地址:

GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐