AI 交互新突破:Skywork AI 推出 Matrix-Game 3.0,720p 40 帧实时高清“世界生成”

Skywork AI 团队近日公布技术报告,称在交互式世界模型方面迎来关键进展。其最新推出的 Matrix-Game3.0首次720p 高清分辨率下实现每秒 40 帧(FPS)的实时生成,并有效缓解了 AI 视频生成长期存在的“长时记忆”不足难题。

image.png

核心亮点:直击 AI 视频“记忆短缺”的痛点

一直以来,视频生成模型在长时间、多步交互场景中,因记忆机制薄弱,容易出现空间关系混乱或风格漂移。Matrix-Game3.0 通过引入相机位姿感知的记忆检索机制,突破了这一限制。

在实现上,系统不仅能基于当前相机姿态精确定位历史画面,还采用统一式自注意力框架,把长程记忆、近期历史与当前待生成帧放入同一空间联合建模。实验结果显示,即便连续交互数分钟,系统依旧保持极高的时空一致性;当用户“原路返回”时,场景细节与初次生成的画面依然对得上。

工业级数据引擎:大规模 3A 游戏数据驱动

为让模型更好理解真实世界的物理与因果,研发团队搭建了一条覆盖广、规模大的“数据生产线”:

虚拟现实同步生成: 基于虚幻引擎 5(UE5)打造 Unreal-Gen 平台,可全自动产出电影质感的交互视频,覆盖超过 1 亿种角色组合。

3A 大作自动化采集: 系统支持从《侠盗猎车手 5》《赛博朋克 2077》等顶级游戏中大规模自动录制高质量交互素材。

多维真实场景补充: 融合超过 10,000 组真实世界的 4K 序列,涵盖室内、城市、航拍等多种场景形态。

image.png

性能加速:模型“瘦身”带来极低时延

面向实时交互的低时延需求,Matrix-Game3.0 深度优化了推理链路。团队采用分段式自回归蒸馏,并结合 VAE 解码器剪枝(最高 75% 剪枝率),使解码速度提升超过 5 倍。同时通过 INT8 量化 等手段进一步降低算力开销,即便在 5B 参数规模下也能流畅运行。

未来愿景:迈向可无限扩展的数字宇宙

除 5B 版本外,团队还展示了参数规模达 28B 的 MoE 模型。随着模型增大,系统在动态物理模拟、场景衔接与泛化能力上展现出更强的稳定性与表现力。

业内人士认为,Matrix-Game3.0 为机器人训练、XR 扩展现实以及新一代沉浸式互动娱乐提供了关键底座。这意味着 AI 正从“生成短片段”加速迈向“实时搭建可交互世界”的新阶段。

论文地址:https://arxiv.org/pdf/2604.08995

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享