美团发布 SOTA 水平的虚拟人视频生成模型 LongCat-Video-Avatar

近日,美团旗下 LongCat 团队宣布开源其最新的视频生成模型 LongCat-Video-Avatar,再度推动虚拟人技术迈进一大步。该模型在长时长视频生成方面表现突出,集成多项核心能力,迅速吸引了众多开发者的关注。

LongCat-Video-Avatar 构建于此前的 LongCat-Video 之上,延续了“一个模型覆盖多任务”的思路,原生支持音频文本转视频(AT2V)、音频文本图像转视频(ATI2V)以及视频续写等功能。相比上一代产品 InfiniteTalk,该模型在动作逼真度、画面稳定性与角色一致性方面都有明显进步,致力于为开发者提供更高效、好用的创作工具。

QQ20251219-105318.png

其核心创新之一是引入名为 Cross-Chunk Latent Stitching 的训练策略,可有效缓解长视频生成中常见的画质随时长下降的问题。通过在潜在空间进行特征替换,LongCat-Video-Avatar 既避免了多次解码导致的清晰度损失,也显著提升了生成效率。

同时,为保证长视频中的角色前后一致,LongCat-Video-Avatar 采用了带位置编码的参考帧注入方案与 Reference Skip Attention 机制。该设计有助于稳住身份语义,减少动作重复与僵硬现象。

在 HDTF、CelebV-HQ、EMTD 与 EvalTalker 等权威公开数据集上的评测结果显示,LongCat-Video-Avatar 多项关键指标达到 SOTA,尤其在唇音同步与一致性方面表现亮眼。结合大规模人工评测,模型在自然度和真实感上也获得了良好反馈,展现出强大的应用潜力。

QQ20251219-105325.png

LongCat 团队表示,LongCat-Video-Avatar 是其数字人生成技术的又一次升级迭代,重点解决开发者在长视频生成中的实际痛点。团队将持续坚持开源,与社区共同打磨,不断优化与迭代。

此次发布不仅为虚拟人技术的落地打开了更广阔的空间,也为创作者提供了新的内容生产路径。开发者可通过 GitHub 与 Hugging Face 获取该模型,开启对“千人千面”数字世界的探索。

项目地址:

GitHub:

https://github.com/meituan-longcat/LongCat-Video

Hugging Face: 

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

Project:

https://meigen-ai.github.io/LongCat-Video-Avatar/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享