1月29日,在接连推出空间感知与 VLA 基座模型之后,蚂蚁灵波科技再度提升行业预期,正式开源世界模型 LingBot-World。该模型在画质、动态表现、长时一致性与交互能力等关键指标上可与 Google Genie3 相媲美,旨在为具身智能、自动驾驶与游戏开发提供一个高保真、高动态、可实时操控的“数字试验场”。

(图说:LingBot-World 在适用场景、生成时长、运动强度与分辨率等方面达到业界顶尖水准)
面向视频生成中常见的“长时漂移”难题(生成时长一拉长就可能出现物体变形、细节塌陷、主体消失或场景结构紊乱等),LingBot-World 通过多阶段训练与并行加速,实现了接近 10 分钟的连续、稳定、近无损生成,为长序列、多步骤的复杂任务训练提供坚实支撑。
在交互层面,LingBot-World 的生成吞吐约为 16FPS,端到端交互时延压缩至 1 秒以内。用户可用键盘或鼠标实时操控角色与相机视角,画面即时响应指令。同时支持通过文本触发环境与世界事件的变化,如调节天气、切换画面风格或生成特定事件,并在尽量保持场景几何关系稳定的前提下完成变更。

(图说:一致性压力测试,相机最长离开 60 秒后回看,目标物体仍在且结构保持一致)

(图说:高动态场景下,镜头长时间移开后再回看,车辆形态与外观依旧一致)

(图说:镜头远离多时后返回,房屋依然存在,结构未变)
模型具备 Zero-shot 泛化能力,只需输入一张真实照片(如城市街景)或游戏截图,即可生成可交互的视频流,无需为某个单一场景做额外训练或数据采集,从而显著降低在不同场景的部署与使用成本。
为破解世界模型训练中高质量交互数据稀缺的问题,LingBot-World 采用混合采集方案:一方面清洗大规模网络视频以覆盖多元场景;另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接获取无 UI 干扰的清洁画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供精确对齐的训练信号。
具身智能大规模落地的核心难点之一,是复杂长程任务的真机训练数据极度稀少。凭借长时序一致性(即记忆力)、实时交互响应,以及对“动作-环境变化”因果关系的理解,LingBot-World 能在数字世界中“想象”物理世界,为智能体的场景理解与长程任务执行提供低成本、高保真的试错空间。同时,LingBot-World 支持多样化场景生成(如光照、摆放位置变化等),有助于提升具身智能算法在真实环境中的泛化能力。
随着“灵波”系列连续推出三款聚焦具身领域的大模型,蚂蚁的 AGI 战略实现了从数字世界走向物理感知的关键延伸,其“基础模型—通用应用—实体交互”的全栈路径日益清晰。蚂蚁正通过 InclusionAI 社区将相关模型全面开源,与行业共同建设,探索 AGI 的边界。一个深度融合开源开放、服务真实场景的 AGI 生态,正在加速成形。
目前,LingBot-World 的模型权重与推理代码已向社区开放。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?