苹果发布 STARFlow-V 视频模型，首用“归一化流”，实现最长30秒稳定画面-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

苹果发布 STARFlow-V 视频模型，首用“归一化流”，实现最长30秒稳定画面

拥抱AI，AIGC最佳实践者

516

苹果公司正式推出全新视频生成模型 STARFlow-V。与当前主流的 Sora、Veo、Runway 等在底层方案上截然不同，STARFlow-V 不再采用扩散模型（Diffusion Model），而是引入“归一化流”（Normalizing Flow），用来解决长视频生成中的稳定性与误差累积问题。

扩散模型依靠多步去噪迭代合成视频；而 STARFlow-V 的“归一化流”直接学习随机噪声与复杂视频数据之间的可逆变换。这一本质差异带来多项优势：

训练效率：一次性完成训练，无需反复小步迭代，效率更高。
生成速度：训练完成后可直接生成视频，不用迭代推理，速度大幅提升。
错误减少：降低逐步生成中常见的累积失真与错误。

苹果表示，STARFlow-V 是首个在画质与速度上可与扩散模型媲美的同类技术。通过并行处理并复用上一帧信息，其生成 5 秒视频的速度相较初版提升约 15 倍。

双架构应对长视频难题

生成长序列一直是视频 AI 的难点，逐帧生成容易产生误差累积。STARFlow-V 采用双架构来缓解这一问题：

一套组件负责跨帧时间一致性（保证运动连贯）。
另一套组件专注单帧内细节（提升画面质量）。

借助该设计，STARFlow-V 在长达 30 秒的演示片段中保持稳定；而如 NOVA、Self-Forcing 等方法在数秒后就开始出现模糊或偏色。

多功能性与性能表现

该模型无需改动即可胜任多种任务，包括：

文本转视频（Text-to-Video）。
图像转视频（Image-to-Video），把输入图像作为起始帧。
视频编辑，支持添加或移除对象。

在 VBench 基准中，STARFlow-V 取得79.7 分。虽然不及 Veo3（85.06）和 HunyuanVideo（83.24）等顶尖扩散模型，但明显优于其他自回归模型，尤其在空间关系与人体表征方面表现更好。

尽管技术亮点突出，STARFlow-V 仍有局限：分辨率较低（640×480，16 帧/秒），且目前无法在常规显卡上实时运行。

更关键的是，其在物理一致性上还有不足，例如“章鱼穿过玻璃”“石头突然出现”等不合理现象。

苹果表示，后续将重点加快计算、缩小模型规模，并使用更注重物理规律的数据进行训练。相关代码已在 GitHub 开源，模型权重随后将于 Hugging Face 发布。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐