字节跳动发布 StoryMem:让 AI 视频中的角色与场景更一致

近日,字节跳动联合南洋理工大学团队推出全新系统 StoryMem,专门用于解决 AI 生成视频在不同场景中人物形象不统一的问题。它的核心思路是,在生成过程中保存关键画面,并在后续片段创作时引用这些画面,从而保持角色与环境的连续性。

image.png

目前的 AI 视频生成模型,如 Sora、Kling、Veo,虽然可以生成质量不错的短片段,但在将多个场景拼接成完整故事时,常会出现人物外观变化、背景不一致等问题。以往的解决方案要么计算成本高,要么在场景衔接时仍会丢失一致性。

StoryMem 采取新策略:在生成视频的过程中,把视觉上关键的帧写入“记忆”,并在创建新的场景时进行调用。其算法会智能筛选重要帧,既保证内存使用高效,又保留故事开头的关键视觉信息。生成后续场景时,这些存储帧会与当前片段一同输入模型,帮助维持整体的一致性。

在训练方面,StoryMem 使用低秩适应(LoRA)技术来适配阿里巴巴开源模型 Wan2.2-I2V。研究团队以 40 万段、每段 5 秒的视频素材进行训练,并按视觉相似度对片段聚合分组,使模型更容易生成风格统一的续集内容。

实验结果显示,StoryMem 在跨场景一致性上有明显提升,相比原始模型提高了 28.7%。用户调研也表明,受访者更偏好 StoryMem 的输出,认为其在画面美观度和连贯性方面表现更好。

研究团队也指出了一些限制:在包含多角色的复杂场景中,可能出现角色视觉特征应用不准确的情况。为此,建议在每次提示中清晰描述角色信息,以提升生成质量。

项目:https://kevin-thu.github.io/StoryMem/

划重点:  

🌟 StoryMem 能有效缓解 AI 视频中人物与环境不统一的问题。  

📊 借助关键帧存储与引用,跨场景一致性相较基础模型提升 28.7%。  

🛠️ 面对多角色复杂场景仍有挑战,建议在提示词中明确描述角色以获得更好效果。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享