苹果发布 STARFlow-V:颠覆常规的视频生成新模型

苹果近日发布了旗下全新的视频生成模型 STARFlow-V。与市面上的 Sora、Veo 和 Runway 等产品相比,它在技术路线上的差异十分明显。STARFlow-V 的设计重心是提升长视频片段的稳定性,采用的是“归一化流”技术,而非当下主流的扩散模型。

image.png

苹果表示,STARFlow-V 是首个在画面质量与生成速度上可与扩散模型相抗衡的方案,尽管当前输出分辨率为640×480像素,生成速度为每秒16帧。不同于扩散模型需要多次迭代逐步去噪,STARFlow-V 学习随机噪声与复杂视频之间的直接数学映射,在单步生成中完成视频合成,显著提升训练效率,并减少分步生成容易出现的误差。

系统可灵活胜任多种任务,包括文本转视频、图像转视频(将输入图像作为起始帧)以及视频编辑。面对超过训练长度的视频,STARFlow-V 采用滑动窗口方案:生成一段后保留最后几帧的上下文,再继续生成。不过,演示片段的时间变化丰富度仍然有限。

在生成长序列时,逐帧生成往往会带来误差累积。为解决这一点,STARFlow-V 使用双重架构:一支负责跨帧的时间序列建模,另一支专注单帧细节优化。为稳定优化过程,训练时会注入一定噪声,虽然可能让画面略显颗粒,但并行的“因果去噪网络”会在保证运动一致性的同时清理残余噪声。

训练方面,苹果使用了7000万对文本 – 视频数据,并结合400万对文本 – 图像数据,借助语言模型把视频描述扩展为九种不同变体。经过几周训练,模型参数规模从30亿提升到70亿,分辨率与视频时长也同步提高。

尽管 STARFlow-V 在 VBench 基准测试中的得分为79.7,略低于部分领先的扩散模型,但在自回归模型中仍表现抢眼,在空间关系与人物表现上具有明显优势。接下来,苹果将继续提升计算速度、优化模型,并强调物理准确性更高的训练数据。

划重点:

🌟 STARFlow-V 采用归一化流技术,强化长视频片段生成的稳定性与效率。  

⚙️ 模型覆盖文本/图像转视频与编辑等多种任务,灵活性强。  

🚀 苹果将持续优化计算速度与物理准确性,推动视频生成技术发展。  

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享