让机器人真正看懂三维:原力灵机发布 GeoVLA 框架,改写传统 VLA 思路!

随着 AI 与机器人不断进步,视觉 – 语言 – 行动(VLA)模型被视为通用机器人落地的核心。可惜的是,现有不少 VLA 方案(如 OpenVLA、RT-2 等)在复杂、无结构场景中暴露出明显弱点:空间感知盲点。由于只看 2D RGB 图像,这些模型在三维理解上受限,很难准确把握物体的深度与具体位置。

image.png

为破解上述痛点,原力灵机团队提出全新 VLA 框架——GeoVLA。在沿用现有视觉 – 语言模型(VLM)强大的预训练能力基础上,GeoVLA 采用创新的双通路设计。它引入专用的点云嵌入网络(PEN)与具备空间意识的动作专家(3DAE),让机器人真正具备三维几何理解。该设计不仅在仿真中取得领先成绩,在多种真实场景的鲁棒性测试里也表现稳定出色。

GeoVLA 的关键思路是把任务拆分:由 VLM 负责“识别是什么”,由点云网络负责“定位在哪里”。在这个端到端框架中,语义理解流、几何感知流与动作生成流三者协同配合,使模型能更精准地执行各类操作。

image.png

大量实验结果显示,GeoVLA 优势显著。在 LIBERO 基准中,GeoVLA 成功率达到 97.7%,超过此前的 SOTA 方法。面对 ManiSkill2 等更复杂的物理仿真任务,GeoVLA 同样表现亮眼,尤其在复杂物体与视角变化条件下,仍能保持较高成功率。

更值得关注的是,GeoVLA 在分布外场景中展现出强鲁棒性,说明它能有效应对多种不确定与变化条件。这样的突破为后续机器人应用打开新空间,推动智能机器人迈向更高水平。

项目地址:https://linsun449.github.io/GeoVLA/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享