美团发布 SOTA 级虚拟人视频模型 LongCat-Video-Avatar

拥抱AI，AIGC最佳实践者

4814

近日，美团旗下 LongCat 团队宣布开源其最新的视频生成模型 ——LongCat-Video-Avatar，这被视为虚拟人技术的又一次关键进展。该模型在长时长视频生成上表现突出，功能完备，迅速引发开发者关注。

LongCat-Video-Avatar 构建于早先的 LongCat-Video 之上，延续“一个模型覆盖多任务”的设计，原生支持音频文本转视频（AT2V）、音频文本图像转视频（ATI2V）以及视频续写等能力。与上一代 InfiniteTalk 相比，新模型在动作逼真度、画面稳定性与身份一致性方面都有明显提升，旨在为开发者提供更高效、易用的创作工具。

其一项核心创新是引入名为 Cross-Chunk Latent Stitching 的训练策略，有效缓解长视频生成中随时长增加而出现的画质下降问题。通过在隐空间进行特征替换，LongCat-Video-Avatar 既避免了多次解码带来的清晰度损失，也显著提高了生成效率。

此外，为在长视频中保持人物的一致性，LongCat-Video-Avatar 采用了带位置编码的参考帧注入方案，并结合 Reference Skip Attention 机制。该组合既能稳住身份语义，又能减少动作重复与僵硬，让生成过程更自然流畅。

在 HDTF、CelebV-HQ、EMTD 与 EvalTalker 等权威公开数据集上的评测显示，LongCat-Video-Avatar 在多项关键指标上达到 SOTA，尤其在唇形同步精度和一致性方面优势明显。同时，基于大规模人工评测，模型在自然度与真实感上也获得了良好反馈，应用前景广阔。

LongCat 团队表示，LongCat-Video-Avatar 是其在数字人生成方向的又一次升级，聚焦开发者在长视频创作中遇到的真实需求。团队坚持开源路线，希望借助社区共建与反馈，持续优化与迭代。

此次发布不仅拓宽了虚拟人技术的落地场景，也为内容创作者打开了新的创作路径。开发者可在 GitHub 与 Hugging Face 获取模型资源，动手探索“千人千面”的数字世界。

项目地址:

GitHub:

https://github.com/meituan-longcat/LongCat-Video

Hugging Face:

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

Project:

https://meigen-ai.github.io/LongCat-Video-Avatar/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐