蚂蚁灵波科技开源 LingBot-Map:单目也能实时流式三维重建

4月16日,蚂蚁灵波科技宣布开源流式三维重建模型 LingBot-Map。该模型的亮点在于只需一枚普通 RGB 摄像头,就能在视频采集的同时实时估计相机位姿,并还原场景的三维结构。它为机器人导航、自动驾驶与 AR 设备等需要即时空间感知的场景,带来了高效、稳定、连续的在线建图能力。

4aca21381ed84f28da2527af904d68b8.jpg

在技术上,LingBot-Map 采用流式处理架构,打破了传统方法必须先采集完整序列再统一处理的限制,实现了边接收画面边输出定位与结构的实时交互。在国际主流评测中,该模型表现突出:在难度极高的 Oxford Spires 数据集上,其轨迹误差仅为此前最优流式方案的三分之一,甚至超过了部分离线算法。性能方面,LingBot-Map 可实现约 20 FPS 的实时推理,并能在超过万帧的长视频运行中保持几乎无衰减的精度,兼顾高精度、高速度与长时稳定性。

此次发布是蚂蚁灵波在深度估计(Depth)、大语言动作模型(VLA)、世界模型(World)之后的又一重要进展。通过补齐“实时空间理解”这一关键环节,蚂蚁灵波进一步完善了其具身智能的基础能力版图。该模型开源不仅降低了实现高精度三维感知的硬件门槛,也将加速具身智能设备在复杂、动态环境中的感知与决策升级。

下载链接:

Hugging Face:https://huggingface.co/robbyant/lingbot-map

ModelScope:https://www.modelscope.cn/models/Robbyant/lingbot-map

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享