字节跳动联合南洋理工推出 StoryMem，攻克AI视频多场景角色一致性难题-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，字节跳动与南洋理工大学研究团队联合发布新系统 StoryMem，专注解决 AI 生成长视频时，角色在不同场景里外观、细节不统一的问题。它通过在生成过程中保存关键画面，并在后续片段引用这些信息，让人物与环境在整段故事中保持一致。

现有的 AI 视频模型如 Sora、Kling、Veo，在短片段生成上表现亮眼，但把多个场景串成连贯剧情时，常出现角色外形前后不一、环境细节不连贯等问题。过去的解决方案不是计算成本很高，就是在拼接时丢掉一致性。

StoryMem 采用新思路：在生成视频的同时，把视觉上关键的帧存进“记忆”，后续场景再次调用这些帧进行参考。系统会智能挑选关键帧，既提高内存管理效率，又保留故事开头的重要视觉信息。生成新场景时，这些存储的帧会与当前片段一起输入模型，确保画面风格与设定延续一致。

在训练中，StoryMem 使用低秩适应（LoRA）技术，适配阿里巴巴开源模型 Wan2.2-I2V。研究团队以40万段、每段5秒的视频进行训练，并按视觉相似性对片段分组，帮助模型更好地生成风格统一的续作。

研究结果显示，StoryMem 在跨场景一致性方面有明显提升，相比未改造的基础模型，表现提高了28.7%。用户调查也表明，参与者更偏好 StoryMem 的生成结果，认为其画面更美观、连贯性更好。

团队也指出了局限：在存在多个角色的复杂场景中，偶尔会出现把某个角色的视觉特征应用到其他角色上的情况。建议在每条提示里清晰描述角色，以提升生成质量。

项目: https://kevin-thu.github.io/StoryMem/

划重点:

🌟 StoryMem 能有效缓解 AI 视频中人物与环境跨场景不一致的问题。

📊 通过保存并引用关键帧，跨场景一致性较基础模型提升了28.7%。

🛠️ 处理多角色复杂场景仍有挑战，建议在提示中明确角色设定以获得更好效果。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

字节跳动联合南洋理工推出 StoryMem，攻克AI视频多场景角色一致性难题