字节跳动发布 StoryMem：让 AI 视频中的角色与场景更一致-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，字节跳动联合南洋理工大学团队推出全新系统 StoryMem，专门用于解决 AI 生成视频在不同场景中人物形象不统一的问题。它的核心思路是，在生成过程中保存关键画面，并在后续片段创作时引用这些画面，从而保持角色与环境的连续性。

目前的 AI 视频生成模型，如 Sora、Kling、Veo，虽然可以生成质量不错的短片段，但在将多个场景拼接成完整故事时，常会出现人物外观变化、背景不一致等问题。以往的解决方案要么计算成本高，要么在场景衔接时仍会丢失一致性。

StoryMem 采取新策略：在生成视频的过程中，把视觉上关键的帧写入“记忆”，并在创建新的场景时进行调用。其算法会智能筛选重要帧，既保证内存使用高效，又保留故事开头的关键视觉信息。生成后续场景时，这些存储帧会与当前片段一同输入模型，帮助维持整体的一致性。

在训练方面，StoryMem 使用低秩适应（LoRA）技术来适配阿里巴巴开源模型 Wan2.2-I2V。研究团队以 40 万段、每段 5 秒的视频素材进行训练，并按视觉相似度对片段聚合分组，使模型更容易生成风格统一的续集内容。

实验结果显示，StoryMem 在跨场景一致性上有明显提升，相比原始模型提高了 28.7%。用户调研也表明，受访者更偏好 StoryMem 的输出，认为其在画面美观度和连贯性方面表现更好。

研究团队也指出了一些限制：在包含多角色的复杂场景中，可能出现角色视觉特征应用不准确的情况。为此，建议在每次提示中清晰描述角色信息，以提升生成质量。

项目:https://kevin-thu.github.io/StoryMem/

划重点:

🌟 StoryMem 能有效缓解 AI 视频中人物与环境不统一的问题。

📊 借助关键帧存储与引用，跨场景一致性相较基础模型提升 28.7%。

🛠️ 面对多角色复杂场景仍有挑战，建议在提示词中明确描述角色以获得更好效果。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

字节跳动发布 StoryMem：让 AI 视频中的角色与场景更一致