字节跳动联合南洋理工推出 StoryMem,攻克AI视频多场景角色一致性难题

近日,字节跳动与南洋理工大学研究团队联合发布新系统 StoryMem,专注解决 AI 生成长视频时,角色在不同场景里外观、细节不统一的问题。它通过在生成过程中保存关键画面,并在后续片段引用这些信息,让人物与环境在整段故事中保持一致。

image.png

现有的 AI 视频模型如 Sora、Kling、Veo,在短片段生成上表现亮眼,但把多个场景串成连贯剧情时,常出现角色外形前后不一、环境细节不连贯等问题。过去的解决方案不是计算成本很高,就是在拼接时丢掉一致性。

StoryMem 采用新思路:在生成视频的同时,把视觉上关键的帧存进“记忆”,后续场景再次调用这些帧进行参考。系统会智能挑选关键帧,既提高内存管理效率,又保留故事开头的重要视觉信息。生成新场景时,这些存储的帧会与当前片段一起输入模型,确保画面风格与设定延续一致。

在训练中,StoryMem 使用低秩适应(LoRA)技术,适配阿里巴巴开源模型 Wan2.2-I2V。研究团队以40万段、每段5秒的视频进行训练,并按视觉相似性对片段分组,帮助模型更好地生成风格统一的续作。

研究结果显示,StoryMem 在跨场景一致性方面有明显提升,相比未改造的基础模型,表现提高了28.7%。用户调查也表明,参与者更偏好 StoryMem 的生成结果,认为其画面更美观、连贯性更好。

团队也指出了局限:在存在多个角色的复杂场景中,偶尔会出现把某个角色的视觉特征应用到其他角色上的情况。建议在每条提示里清晰描述角色,以提升生成质量。

项目: https://kevin-thu.github.io/StoryMem/

划重点:  

🌟 StoryMem 能有效缓解 AI 视频中人物与环境跨场景不一致的问题。  

📊 通过保存并引用关键帧,跨场景一致性较基础模型提升了28.7%。  

🛠️ 处理多角色复杂场景仍有挑战,建议在提示中明确角色设定以获得更好效果。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享