近日,美团旗下 LongCat 团队宣布开源其最新的视频生成模型 ——LongCat-Video-Avatar,这被视为虚拟人技术的又一次关键进展。该模型在长时长视频生成上表现突出,功能完备,迅速引发开发者关注。
LongCat-Video-Avatar 构建于早先的 LongCat-Video 之上,延续“一个模型覆盖多任务”的设计,原生支持音频文本转视频(AT2V)、音频文本图像转视频(ATI2V)以及视频续写等能力。与上一代 InfiniteTalk 相比,新模型在动作逼真度、画面稳定性与身份一致性方面都有明显提升,旨在为开发者提供更高效、易用的创作工具。

其一项核心创新是引入名为 Cross-Chunk Latent Stitching 的训练策略,有效缓解长视频生成中随时长增加而出现的画质下降问题。通过在隐空间进行特征替换,LongCat-Video-Avatar 既避免了多次解码带来的清晰度损失,也显著提高了生成效率。
此外,为在长视频中保持人物的一致性,LongCat-Video-Avatar 采用了带位置编码的参考帧注入方案,并结合 Reference Skip Attention 机制。该组合既能稳住身份语义,又能减少动作重复与僵硬,让生成过程更自然流畅。
在 HDTF、CelebV-HQ、EMTD 与 EvalTalker 等权威公开数据集上的评测显示,LongCat-Video-Avatar 在多项关键指标上达到 SOTA,尤其在唇形同步精度和一致性方面优势明显。同时,基于大规模人工评测,模型在自然度与真实感上也获得了良好反馈,应用前景广阔。

LongCat 团队表示,LongCat-Video-Avatar 是其在数字人生成方向的又一次升级,聚焦开发者在长视频创作中遇到的真实需求。团队坚持开源路线,希望借助社区共建与反馈,持续优化与迭代。
此次发布不仅拓宽了虚拟人技术的落地场景,也为内容创作者打开了新的创作路径。开发者可在 GitHub 与 Hugging Face 获取模型资源,动手探索“千人千面”的数字世界。
项目地址:
GitHub:
https://github.com/meituan-longcat/LongCat-Video
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project:
https://meigen-ai.github.io/LongCat-Video-Avatar/


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?