一张图就能生成可漫游 3D 世界！NVIDIA 开源 Lyra 2.0，攻克长视频“空间遗忘”和“时间漂移”难题-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

NVIDIA Research 近日在 Hugging Face 平台正式发布Lyra2.0框架，这一开源项目让生成式 3D 世界搭建迈上新台阶。从单张输入图片出发，Lyra2.0 能生成长期一致、可自由探索的大型 3D 场景，支持实时渲染、机器人仿真与沉浸式应用。

编辑认为，这次发布不仅显著提升了视频生成模型的时空一致性，也为物理 AI、游戏开发和虚拟环境构建提供了实用的资产管线。

核心难题与突破：告别空间遗忘与时间漂移

以往长时段视频生成在相机长距离移动时，常出现“空间遗忘”（spatial forgetting）——难以记住先前区域细节，导致场景不连贯；同时还会出现“时间漂移”（temporal drifting）——物体位置、外观随时间逐步偏离，严重影响后续 3D 重建。

Lyra2.0 针对这两大痛点提出了创新方案：

空间记忆机制：系统为每一帧维护 3D 几何信息，但仅用于信息路由——检索相关历史帧并建立密集对应；外观合成依然依托强大的生成先验，避免几何误差累积。
自增强训练策略：在训练中让模型接触并修复自身的退化输出，学会主动纠偏而非继续传播错误，从而实现更长、更一致的 3D 视频轨迹。

通过上述两阶段设计，Lyra2.0 能从单张图像与用户定义的相机轨迹出发，自回归生成长序列视频片段，并可靠地提升为高质量 3D 高斯溅射（3D Gaussian Splatting）或网格模型，支持实时渲染与进一步仿真。

上手流程：从一张图到可探索 3D 世界

输入一张图片（可选搭配文本提示）；
在交互式 3D 浏览器中规划相机移动轨迹；
模型自回归生成由相机控制的长视频片段；
将视频序列提升为显式 3D 表示（点云、Gaussian 或网格），并反馈用于持续导航；
最终导出可直接用于 Unity、Unreal、Isaac Sim 等环境的资产。

实验表明，Lyra2.0 在长视频生成与 3D 场景重建指标上优于 GEN3C、CaM、Yume-1.5 等多款方法，尤其在场景规模与一致性上表现突出。生成的场景可达数十米，用户可以自由“走回去”、环顾四周，甚至投放机器人进行实时交互。

开源与应用价值：加速物理 AI 与虚拟世界开发

Lyra2.0 的模型权重已在 Hugging Face（nvidia/Lyra-2.0）开放，代码仓库同步上线 GitHub（nv-tlabs/lyra），采用 Apache 2.0 许可，支持商业使用。底层视频骨干基于 Wan-14B 等强力扩散模型，重建阶段结合 Depth Anything V3 等工具，确保输出高质量且实用。

这一框架特别适用于：