宇树开源 UnifoLM-VLA-0:让通用人形机器人学会“物理常识”

宇树宣布将 UnifoLM-VLA-0 大模型全面开源。作为 UnifoLM 系列中面向通用人形机器人操作的视觉-语言-动作(VLA)模型,这一步标志着机器人大脑从“只会图文理解”迈向具备“物理常识”的具身智能。

QQ20260130-093721.jpg

技术亮点:把“看懂”到“会做”深度打通

UnifoLM‑VLA‑0 直面传统视觉语言模型(VLM)在物理交互方面的短板:

具身智能进化:在大量机器人操作数据上持续预训练,让模型理解物理交互规律,不再只停留在语义层面。

空间细节对齐:将文本指令与 2D/3D 空间信息深度融合,显著提升在复杂环境中的空间感知与位置推理能力。

动力学约束:引入动作分块预测与前向/逆向动力学约束,实现对长时序动作序列的统一建模。

QQ20260130-093737.jpg

研发架构:基于 Qwen2.5-VL 的再进化

宇树使用系统清洗后的多任务数据集对模型进行了深度打磨:

核心基座:基于开源的 Qwen2.5‑VL‑7B 构建。

高效训练:仅用约 340 小时的真机数据进行离散动作预测训练,便实现了良好的任务泛化。

性能评估:在空间理解基准测试中,表现不仅大幅超过基座模型,在特定设置下甚至可与 Gemini‑Robotics‑ER1.5 相媲美。

QQ20260130-093746.jpg

实战表现:一套策略搞定 12 类复杂任务

在宇树 G1 人形机器人平台上的验证表现亮眼:

多任务通用性:在同一策略网络(checkpoint)下,可稳定完成包含抓取、放置等在内的 12 项复杂操作任务。

鲁棒性强:真机实验显示,即使面对外部扰动,机器人依然能保持稳定执行与良好的抗干扰能力。

目前,宇树已在 GitHub 及项目主页公开完整的模型代码与相关资料,期望与全球开发者共同加速通用人形机器人的商业化落地。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享