在推出空间感知与具身大模型之后,蚂蚁灵波团队现已将其交互式世界模型正式开源

LingBot-World 直面具身智能训练中“真机数据稀缺、成本高”的关键难题。通过在虚拟环境中复现物理规律,智能体可以以低成本反复试错,并将学到的因果行为关系顺利迁移到现实世界。
该模型带来了多项关键技术亮点:
-
长时序一致性:可连续稳定生成近10分钟。即便镜头离开场景60秒再回到原处,物体的结构与外观仍能保持一致,有效缓解长视频中的“细节崩坏”问题。
-
高保真实时交互:支持动作条件生成(Action-conditioned generation),生成速度约 16FPS,端到端交互延迟控制在 1秒以内。用户可用键盘、鼠标或文本指令实时改变环境,例如调整天气或切换视角。
-
Zero-shot 泛化能力:采用混合数据策略,结合网络视频与虚幻引擎(UE)合成管线训练。用户只需给出一张真实城市照片或游戏截图,模型即可产出相应的可交互视频流,无需针对特定场景再做额外训练。
目前,蚂蚁灵波团队已将
Website:
https://technology.robbyant.com/lingbot-world
Model:
https://www.modelscope.cn/collections/Robbyant/LingBot-world
https://huggingface.co/collections/robbyant/lingbot-world
Code:
https://github.com/Robbyant/lingbot-world
划重点:
-
🌍 数字训练场:
能够复现真实物理与因果关系,为 AI 机器人提供低成本的试错空间。LingBot-World -
⏱️ 超长记忆力:支持最长近10分钟的逻辑一致性生成,告别长视频常见的“物体变形”现象。
-
🎮 实时操控感:具备约16FPS 的生成速率,实现毫秒级动作响应与环境即时反馈。
-
🖼️ 极简部署:具备 Zero-shot 能力,单张照片即可“变身”为可交互的 3D 模拟世界。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?