美团发布 SOTA 级虚拟人视频模型 LongCat-Video-Avatar

近日,美团旗下 LongCat 团队宣布开源其最新的视频生成模型 ——LongCat-Video-Avatar,这被视为虚拟人技术的又一次关键进展。该模型在长时长视频生成上表现突出,功能完备,迅速引发开发者关注。

LongCat-Video-Avatar 构建于早先的 LongCat-Video 之上,延续“一个模型覆盖多任务”的设计,原生支持音频文本转视频(AT2V)、音频文本图像转视频(ATI2V)以及视频续写等能力。与上一代 InfiniteTalk 相比,新模型在动作逼真度、画面稳定性与身份一致性方面都有明显提升,旨在为开发者提供更高效、易用的创作工具。

QQ20251219-105318.png

其一项核心创新是引入名为 Cross-Chunk Latent Stitching 的训练策略,有效缓解长视频生成中随时长增加而出现的画质下降问题。通过在隐空间进行特征替换,LongCat-Video-Avatar 既避免了多次解码带来的清晰度损失,也显著提高了生成效率。

此外,为在长视频中保持人物的一致性,LongCat-Video-Avatar 采用了带位置编码的参考帧注入方案,并结合 Reference Skip Attention 机制。该组合既能稳住身份语义,又能减少动作重复与僵硬,让生成过程更自然流畅。

在 HDTF、CelebV-HQ、EMTD 与 EvalTalker 等权威公开数据集上的评测显示,LongCat-Video-Avatar 在多项关键指标上达到 SOTA,尤其在唇形同步精度和一致性方面优势明显。同时,基于大规模人工评测,模型在自然度与真实感上也获得了良好反馈,应用前景广阔。

QQ20251219-105325.png

LongCat 团队表示,LongCat-Video-Avatar 是其在数字人生成方向的又一次升级,聚焦开发者在长视频创作中遇到的真实需求。团队坚持开源路线,希望借助社区共建与反馈,持续优化与迭代。

此次发布不仅拓宽了虚拟人技术的落地场景,也为内容创作者打开了新的创作路径。开发者可在 GitHub 与 Hugging Face 获取模型资源,动手探索“千人千面”的数字世界。

项目地址:

GitHub:

https://github.com/meituan-longcat/LongCat-Video

Hugging Face: 

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

Project:

https://meigen-ai.github.io/LongCat-Video-Avatar/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享