把分镜脚本一键喂给AI，几秒出片1分钟连贯长视频！字节开源StoryMem让角色不再“变脸”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

把分镜脚本一键喂给AI，几秒出片1分钟连贯长视频！字节开源StoryMem让角色不再“变脸”

拥抱AI，AIGC最佳实践者

5514

最近，字节跳动携手南洋理工大学推出的开源框架 StoryMem 在AI视频生成领域引发关注。它通过创新的“视觉记忆”机制，把现有的单镜头视频扩散模型升级为多镜头长视频叙事系统，可自动生成时长超过1分钟、包含多次镜头切换且角色与场景高度统一的叙事视频，标志着开源AI视频技术向电影级讲故事迈出关键一步。

StoryMem的核心亮点：记忆加持的逐镜头生成

StoryMem引入受人类记忆启发的“Memory-to-Video（M2V）”设计，维护一个紧凑的动态记忆库，存放已生成镜头的关键帧信息。先用文本到视频（T2V）模块生成首个镜头作为初始记忆；之后每生成一个新镜头，都通过 M2V LoRA 将记忆中的关键帧注入扩散模型，确保角色形象、场景风格和叙事逻辑在不同镜头间保持一致。

完成一个镜头后，框架会自动做语义关键帧提取与美学筛选，再把结果写回记忆库。这样迭代生成的方式，能有效避免传统长视频里常见的角色“变脸”和场景突变问题，而且只需轻量级 LoRA 微调即可，不需要海量长视频数据训练。

一致性更稳，画面更像电影

实验结果显示，StoryMem在跨镜头一致性方面相比现有方法有明显优势，指标最高提升达29%，在人类主观评测中也更受偏好。同时，它沿用了基础模型（如 Wan2.2）的高画质、对提示的良好遵循和镜头控制能力，支持自然转场与自定义故事生成。

此外，团队还发布了 ST-Bench 基准数据集，收录300个多样化的多镜头故事提示，为长视频叙事质量提供标准化评测参考。

应用广泛：快速预览与A/B测试好帮手

StoryMem特别适合需要快速迭代视觉内容的场景：

– 营销与广告：根据脚本快速生成动态分镜，便于多版本A/B测试

– 影视前期：辅助剧组可视化故事板，降低概念阶段成本

– 短视频与独立创作：轻松产出连贯叙事短片，提升专业质感

社区响应迅速：ComfyUI集成已有初版

项目开源后不久，社区已开始尝试本地化部署。部分开发者在 ComfyUI 中搭建了初步工作流，支持本地生成长视频，进一步降低使用门槛。

AIbase观点：长视频的一致性一直是AI生成领域的难点。StoryMem用轻量高效的方案破解这一问题，推动开源视频模型向实用叙事工具演进。未来随着更多多模态能力的融合，它在广告、影视与创作领域的潜力还会继续释放。

项目地址：https://github.com/Kevin-thu/StoryMem

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐