在昨日开源高精度空间感知模型 LingBot-Depth 之后,蚂蚁集团旗下灵波科技今日再度宣布,全面开源具身大模型 LingBot-VLA。作为面向真实机器人操作的“智能基座”,LingBot-VLA 具备跨本体、跨任务的泛化能力,并显著降低后训练成本,助推“一脑多机”走向工程化落地。
在上海交通大学开源的具身评测基准 GM-100(共100项真实操作任务)中,LingBot-VLA 在3台不同的真实机器人平台上实现跨本体泛化,平均成功率相较 Pi0.5 的13.0% 提升至15.7%(w/o Depth)。引入深度信息后(w/ Depth),空间理解进一步增强,平均成功率升至17.3%,刷新了真机评测记录,证明了其在真实场景中的稳定表现。

(图注:在 GM-100 真机评测中,LingBot-VLA 的跨本体泛化超过 Pi0.5)
在 RoboTwin2.0 仿真基准(含50项任务)测试里,面对光照变化、杂物干扰、台面高度波动等强随机化环境,LingBot-VLA 通过可学习的查询对齐机制,深度融合深度信息,整体操作成功率较 Pi0.5 提升了9.92%,实现从仿真到真实的全链路性能领先。

(图注:在 RoboTwin2.0 仿真评测中,LingBot-VLA 的跨任务泛化优于 Pi0.5)
长期以来,具身智能在落地时面临本体、任务、环境等多重差异带来的泛化难题。开发者常需要针对不同硬件和任务重复采集大量数据并进行后训练,导致成本高、周期长,也难以形成可规模复制的交付路径。
为解决这些痛点,LingBot-VLA 基于 20000+ 小时的海量真机数据完成预训练,覆盖 9 种主流双臂机器人构型(包括 AgileX、Galaxea R1Pro、R1Lite、AgiBot G1 等),让同一个“通用大脑”能够无缝迁移到不同形态的机器人上,并在任务或环境变化时仍保持稳定的成功率与鲁棒性。配合高精度空间感知模型 LingBot-Depth,LingBot-VLA 能获得更优的深度表征,依托更清晰的“视力”,实现“看得更准、做得更稳”。
得益于扎实的基座能力,LingBot-VLA 大幅降低下游任务的适配难度,仅需 80 条演示数据即可实现高质量任务迁移。同时,依托底层代码库优化,其训练效率相比 StarVLA、OpenPI 等主流框架提升至 1.5~2.8 倍,在数据与算力开销上实现双降。
此次开源不仅放出模型权重,还同步提供包含数据处理、高效微调与自动评估在内的完整代码库,显著缩短训练迭代周期,降低商业落地所需的算力与时间门槛,帮助开发者以更低成本快速适配自有场景,提升模型的实用价值。
蚂蚁灵波科技 CEO 朱兴表示:“要让具身智能大规模应用,离不开高效的具身基座模型,这决定了能不能用、用得起。我们希望借助 LingBot-VLA 的开源,持续探索具身智能的上限,推动研发迈入可复用、可验证、可规模落地的新阶段,让 AI 更快融入物理世界,服务每一个人。”
LingBot-VLA 是蚂蚁开源的第一款具身智能基座模型,也是蚂蚁在 AGI 研发上的一次重要探索。朱兴介绍,蚂蚁集团坚持以开源开放推进 AGI,打造了 InclusionAI,已构建覆盖基础模型、多模态、推理、新型架构与具身智能的完整技术体系与开源生态。LingBot-VLA 的开源,是 InclusionAI 的关键实践。“期待携手全球开发者,加速具身智能的迭代与规模化应用,助力 AGI 更快到来。”
据悉,在数据采集阶段,LingBot-VLA 使用了星海图、松灵的硬件平台;乐聚、库帕思、国家地方共建人形机器人创新中心、北京人形机器人创新中心有限公司、博登智能、睿尔曼也在预训练阶段提供了高质量数据支持。目前,LingBot-VLA 已与星海图、松灵、乐聚等厂商完成适配,验证了其在不同机器人构型上的跨本体迁移能力。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?