为解决 AI 视频生成领域长期存在的“角色走样”和“背景闪烁”问题,字节跳动与南洋理工大学团队近期联合发布了名为 StoryMem 的新系统。它引入近似人类记忆的机制,让长视频在跨场景、跨镜头的创作中保持高度统一,针对 Sora、Kling 等模型在多镜头叙事里易出现的视觉不一致痛点给出有效方案。

StoryMem 的核心思路在于其“混合记忆库”设计。研究者发现,把所有场景硬塞进同一个模型会让计算成本暴涨,而逐段单独生成又容易丢失上下文。为此,StoryMem 会有选择地保存前面场景的关键帧作为参照。算法通过双重筛选:先做语义分析挑出最具信息量的画面,再进行质量检测过滤模糊帧。生成新场景时,这些关键帧会与一种名为 RoPE(旋转位置嵌入)的技术一起输入模型。通过给记忆帧设置“负时间索引”,系统引导模型将其视作“过去事件”,从而确保角色形象与背景细节在故事推进中持续稳定。

更值得一提的是,StoryMem 的实现非常高效。它基于阿里巴巴开源模型 Wan2.2-I2V 的 LoRa 版本运行,在140亿参数的基础模型上仅增加约7亿参数,显著降低了训练门槛。在包含300条场景说明的 ST-Bench 基准测试中,StoryMem 的跨场景一致性较基础模型提升了28.7%,在美学评分与用户偏好方面也全面优于 HoloCine 等同类前沿技术。
此外,该系统还展现了极高的实用价值,支持用户上传自定义照片作为“记忆起点”生成连贯故事,并能带来更顺滑的场景过渡。尽管在处理多角色并发与大幅动作衔接上仍有一定局限,但团队已在 Hugging Face 开放权重数据,并上线项目页面供开发者探索。
地址:https://kevin-thu.github.io/StoryMem/
https://huggingface.co/Kevin-thu/StoryMem

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?