近日,字节跳动与南洋理工大学研究团队联合发布新系统 StoryMem,专注解决 AI 生成长视频时,角色在不同场景里外观、细节不统一的问题。它通过在生成过程中保存关键画面,并在后续片段引用这些信息,让人物与环境在整段故事中保持一致。

现有的 AI 视频模型如 Sora、Kling、Veo,在短片段生成上表现亮眼,但把多个场景串成连贯剧情时,常出现角色外形前后不一、环境细节不连贯等问题。过去的解决方案不是计算成本很高,就是在拼接时丢掉一致性。
StoryMem 采用新思路:在生成视频的同时,把视觉上关键的帧存进“记忆”,后续场景再次调用这些帧进行参考。系统会智能挑选关键帧,既提高内存管理效率,又保留故事开头的重要视觉信息。生成新场景时,这些存储的帧会与当前片段一起输入模型,确保画面风格与设定延续一致。
在训练中,StoryMem 使用低秩适应(LoRA)技术,适配阿里巴巴开源模型 Wan2.2-I2V。研究团队以40万段、每段5秒的视频进行训练,并按视觉相似性对片段分组,帮助模型更好地生成风格统一的续作。
研究结果显示,StoryMem 在跨场景一致性方面有明显提升,相比未改造的基础模型,表现提高了28.7%。用户调查也表明,参与者更偏好 StoryMem 的生成结果,认为其画面更美观、连贯性更好。
团队也指出了局限:在存在多个角色的复杂场景中,偶尔会出现把某个角色的视觉特征应用到其他角色上的情况。建议在每条提示里清晰描述角色,以提升生成质量。
项目: https://kevin-thu.github.io/StoryMem/
划重点:
🌟 StoryMem 能有效缓解 AI 视频中人物与环境跨场景不一致的问题。
📊 通过保存并引用关键帧,跨场景一致性较基础模型提升了28.7%。
🛠️ 处理多角色复杂场景仍有挑战,建议在提示中明确角色设定以获得更好效果。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?