蚂蚁灵波开源空间感知模型 LingBot-Depth,助机器人稳抓透明与镜面物体

空间智能领域迎来重要的开源消息。1月27日,蚂蚁集团旗下的具身智能公司灵波科技宣布开放高精度空间感知模型 LingBot-Depth。

该模型以奥比中光 Gemini330系列双目3D 相机的芯片级原始数据为基础,重点提升环境深度感知与三维理解能力,旨在让机器人、自动驾驶等智能设备具备更准确、更可靠的三维视觉,在“看清楚”三维世界这一行业核心难题上取得突破。这也是蚂蚁灵波科技在2025外滩大会后首次亮相半年来,在具身智能技术底座方向发布的又一项重要成果。

在 NYUv2、ETH3D 等权威基准上,LingBot-Depth 展现出代际优势:相较业界常用的 PromptDA 与 PriorDA,其在室内场景的相对误差(REL)下降超过 70%,在难度较高的稀疏 SfM 任务中,RMSE 误差约降低 47%,刷新行业精度标杆。

QQ20260127-122552.png

(图说:在最具挑战的稀疏深度补全任务中,LingBot-Depth 整体表现优于多款主流模型。图中数值越低代表效果越好。)

在家庭和工业环境中,玻璃器皿、镜面、不锈钢设备等透明或高反光材质非常常见,却是机器空间感知的难点。传统深度相机受限于光学特性,面对这类材质时往往无法获取有效回波,导致深度图出现缺失或噪声。

为解决这一共性问题,蚂蚁灵波科技研发了“掩码深度建模”(Masked Depth Modeling,MDM)技术,并依托奥比中光 Gemini330系列双目3D 相机进行 RGB-Depth 数据采集与效果验证。当深度数据出现缺失或异常时,LingBot-Depth 能融合彩色图像(RGB)中的纹理、轮廓及场景上下文,对空缺区域进行推断与补全,输出完整、致密、边缘更锐利的三维深度图。值得一提的是,LingBot-Depth 已通过奥比中光深度视觉实验室的专业认证,在精度、稳定性与复杂场景适配方面均达到行业领先水平。

实验显示,奥比中光 Gemini330 系列搭载 LingBot-Depth 后,面对透明玻璃、高反光镜面、强逆光及复杂曲面等极具挑战的光学场景,输出的深度图依然平滑、完整,且物体边缘非常锐利;其效果显著优于业内领先的 3D 视觉公司 Stereolabs 推出的 ZED Stereo Depth 深度相机。这意味着在不更换传感器硬件的前提下,LingBot-Depth 能显著提升消费级深度相机对高难材质的处理能力。

5bb53c659f33ffc0aefe4508f26d8607.png

(图说:[上图] 搭载 LingBot-Depth 后,奥比中光 Gemini330系列在透明及反光场景下的深度图完整度与边缘清晰度明显提升;[下图] 其效果优于业界领先的 ZED 深度相机)

LingBot-Depth 的强劲表现离不开海量真实场景数据。灵波科技采集约 1000 万份原始样本,提炼出 200 万组高价值深度配对数据用于训练,支撑模型在极端环境下的泛化能力。这一核心数据资产(含 2M 真实世界深度数据与 1M 仿真数据)将于近期开源,推动社区更快攻克复杂场景的空间感知难题。

据了解,蚂蚁灵波科技已与奥比中光达成战略合作意向。奥比中光计划基于 LingBot-Depth 的能力推出新一代深度相机。

本周蚂蚁灵波还将陆续开源多款面向具身智能的模型。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享