近日,字节跳动联合南洋理工大学团队推出全新系统 StoryMem,专门用于解决 AI 生成视频在不同场景中人物形象不统一的问题。它的核心思路是,在生成过程中保存关键画面,并在后续片段创作时引用这些画面,从而保持角色与环境的连续性。

目前的 AI 视频生成模型,如 Sora、Kling、Veo,虽然可以生成质量不错的短片段,但在将多个场景拼接成完整故事时,常会出现人物外观变化、背景不一致等问题。以往的解决方案要么计算成本高,要么在场景衔接时仍会丢失一致性。
StoryMem 采取新策略:在生成视频的过程中,把视觉上关键的帧写入“记忆”,并在创建新的场景时进行调用。其算法会智能筛选重要帧,既保证内存使用高效,又保留故事开头的关键视觉信息。生成后续场景时,这些存储帧会与当前片段一同输入模型,帮助维持整体的一致性。
在训练方面,StoryMem 使用低秩适应(LoRA)技术来适配阿里巴巴开源模型 Wan2.2-I2V。研究团队以 40 万段、每段 5 秒的视频素材进行训练,并按视觉相似度对片段聚合分组,使模型更容易生成风格统一的续集内容。
实验结果显示,StoryMem 在跨场景一致性上有明显提升,相比原始模型提高了 28.7%。用户调研也表明,受访者更偏好 StoryMem 的输出,认为其在画面美观度和连贯性方面表现更好。
研究团队也指出了一些限制:在包含多角色的复杂场景中,可能出现角色视觉特征应用不准确的情况。为此,建议在每次提示中清晰描述角色信息,以提升生成质量。
项目:https://kevin-thu.github.io/StoryMem/
划重点:
🌟 StoryMem 能有效缓解 AI 视频中人物与环境不统一的问题。
📊 借助关键帧存储与引用,跨场景一致性相较基础模型提升 28.7%。
🛠️ 面对多角色复杂场景仍有挑战,建议在提示词中明确描述角色以获得更好效果。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?