蚂蚁灵波开源 LingBot-World:构建可实时互动的具身智能世界模型

在发布空间感知与具身大模型之后,蚂蚁灵波团队正式将其互动式世界模型LingBot-World开源。该模型面向具身智能、自动驾驶等场景,提供一个高保真、逻辑稳定且可实时操控的“数字练兵场”。

image.png

LingBot-World 直击具身智能训练中“真机数据少、获取成本高”的痛点。通过在虚拟环境中近似还原物理规律,智能体可以低成本反复试错,并将学到的因果行为迁移到现实世界。

该模型带来多项关键能力:

  • 长时序一致性:可连续稳定生成约 10 分钟的视频。即使镜头移开 60 秒再回到原处,场景中的物体结构与外观依旧一致,显著缓解长视频中的“细节塌陷”。

  • 高保真实时交互:支持动作条件生成(Action-conditioned generation),生成吞吐约 16FPS,端到端交互延迟控制在 1 秒内。用户可用键盘、鼠标或文本指令即时改变环境,如调整天气或视角。

  • Zero-shot 泛化:采用混合数据策略,结合网络视频与虚幻引擎(UE)合成数据训练。用户只需提供一张真实城市照片或游戏截图,模型即可生成对应的可交互视频流,无需为特定场景额外训练。

目前,蚂蚁灵波团队已将LingBot-World的模型权重与推理代码完整开源。

Website:

https://technology.robbyant.com/lingbot-world

Model:

https://www.modelscope.cn/collections/Robbyant/LingBot-world

https://huggingface.co/collections/robbyant/lingbot-world

Code:

https://github.com/Robbyant/lingbot-world

划重点:

  • 🌍 数字演练场LingBot-World可模拟真实的物理因果,为 AI 机器人提供低成本的试错空间。

  • ⏱️ 超长记忆力:最长支持 10 分钟逻辑一致的连续生成,告别长视频里的“物体变形”。

  • 🎮 实时操控感:生成速率达 16FPS,实现毫秒级动作响应与环境即时反馈。

  • 🖼️ 极简部署:具备 Zero-shot 能力,一张照片即可“生成”可交互的 3D 模拟世界。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享