让机器人看懂真三维：原力灵机发布 GeoVLA 框架，重塑传统 VLA 模型！-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

让机器人看懂真三维：原力灵机发布 GeoVLA 框架，重塑传统 VLA 模型！

拥抱AI，AIGC最佳实践者

396

在人工智能与机器人高速发展的大背景下，视觉-语言-行动（VLA）模型被视为打造通用机器人的关键。但不少现有 VLA 模型（如 OpenVLA、RT-2 等）在复杂、无序的场景中暴露出一个痛点：空间理解薄弱。它们主要依赖 2D RGB 图像作为视觉输入，导致在三维空间的判断受限，难以准确识别物体的深度与位置。

为破解这一难题，原力灵机研究团队推出全新 VLA 框架——GeoVLA。该框架在沿用现有视觉-语言模型（VLM）强大预训练能力的同时，采用创新的双流设计。具体而言，GeoVLA 引入专用的点云嵌入网络（PEN）与空间感知动作专家（3DAE），让机器人真正具备三维几何理解力。这样的设计不仅在仿真环境中取得领先成绩，在真实世界的多种鲁棒性测试中也表现稳定出色。

GeoVLA 的核心思路是任务解耦：让 VLM 负责“看懂是什么”，由点云网络负责“看清在哪里”。这一端到端框架由语义理解流、几何感知流与动作生成流三部分协同工作，使模型能够更精准地执行各类任务。

在多项实验中，GeoVLA 展现出显著优势：在 LIBERO 基准上成功率高达 97.7%，超越此前的 SOTA 模型；在更复杂的 ManiSkill2 物理仿真中同样表现亮眼，尤其在处理复杂物体和视角变化时仍能保持较高成功率。

更值得关注的是，GeoVLA 在分布外场景中的强鲁棒性，证明了其面对不确定性与环境变化时的优异适应力。这一突破为机器人应用解锁更多可能，加速智能机器人技术迈向更高水平。

项目地址:https://linsun449.github.io/GeoVLA/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐