1月29日,继连续推出空间感知与 VLA 基座模型后,蚂蚁灵波科技再度带来重磅进展,开源发布世界模型 LingBot-World。该模型在视频质量、动态表现、长时一致性与交互能力等关键指标上可与 Google Genie3 相媲美,旨在为具身智能、自动驾驶与游戏开发提供高保真、高动态、可实时操控的“数字练兵场”。

(图说: LingBot-World 在适用范围、可持续生成时长、动态丰富度与分辨率等方面达到业界顶尖水平)
针对视频生成中常见的“长时漂移”问题(生成时间一长容易出现物体变形、细节塌陷、主体消失或场景结构崩坏等),LingBot-World 通过多阶段训练与并行化加速,实现近 10 分钟的连续稳定、质量不降的生成,为长序列、多步骤的复杂任务训练提供有力支撑。
在交互性能方面,LingBot-World 生成吞吐约 16 FPS,端到端交互延迟控制在 1 秒以内。用户可通过键盘或鼠标实时操控角色与相机视角,画面即时响应。此外,还可用文本触发环境变化与世界事件,例如调整天气、切换画面风格或生成特定事件,并在保持场景几何关系基本一致的前提下完成这些变化。

(图说: 一致性压力测试,镜头最长移开 60 秒后返回,目标物体仍在且结构保持一致)

(图说: 高动态环境下,镜头长时间离开后回看,车辆形态与外观依然保持一致)

(图说: 镜头长时间移开再返回,房屋仍存在且结构未变)
模型具备 Zero-shot 泛化能力,只需输入一张真实照片(如城市街景)或游戏截图,即可直接生成可交互的视频流,无需针对单一场景额外训练或数据采集,从而降低在不同场景中的部署与使用成本。
为解决世界模型训练中高质量交互数据稀缺的问题,LingBot-World 采用混合采集策略:一方面清洗大规模网络视频以覆盖多样化场景;另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无 UI 干扰的干净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供精确对齐的训练信号。
具身智能的大规模落地面临一个核心挑战——复杂长程任务的真机训练数据极度稀缺。凭借长时序一致性(亦即记忆能力)、实时交互响应,以及对“动作—环境变化”因果关系的理解,LingBot-World 能在数字世界中“想象”物理世界,为智能体的场景理解与长程任务执行提供低成本、高保真的试错空间。同时,LingBot-World 支持场景多样化生成(如光照、摆放位置变化等),也有助于提升具身智能算法在真实场景中的泛化能力。
随着“灵波”系列连续发布三款面向具身领域的大模型,蚂蚁的 AGI 战略完成了从数字世界到物理感知的关键延伸,“基础模型—通用应用—实体交互”的全栈路径更加清晰。蚂蚁正通过 InclusionAI 社区将模型全面开源,与行业共建,共同探索 AGI 的边界。一个深度拥抱开源开放、服务真实场景的 AGI 生态正在加速成型。
目前,LingBot-World 的模型权重及推理代码已面向社区开放。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?