宇树宣布将 UnifoLM-VLA-0 大模型全面开源。作为 UnifoLM 系列中面向通用人形机器人操作的视觉-语言-动作(VLA)模型,这一步标志着机器人大脑从“只会图文理解”迈向具备“物理常识”的具身智能。

技术亮点:把“看懂”到“会做”深度打通
UnifoLM‑VLA‑0 直面传统视觉语言模型(VLM)在物理交互方面的短板:
具身智能进化:在大量机器人操作数据上持续预训练,让模型理解物理交互规律,不再只停留在语义层面。
空间细节对齐:将文本指令与 2D/3D 空间信息深度融合,显著提升在复杂环境中的空间感知与位置推理能力。
动力学约束:引入动作分块预测与前向/逆向动力学约束,实现对长时序动作序列的统一建模。

研发架构:基于 Qwen2.5-VL 的再进化
宇树使用系统清洗后的多任务数据集对模型进行了深度打磨:
核心基座:基于开源的 Qwen2.5‑VL‑7B 构建。
高效训练:仅用约 340 小时的真机数据进行离散动作预测训练,便实现了良好的任务泛化。
性能评估:在空间理解基准测试中,表现不仅大幅超过基座模型,在特定设置下甚至可与 Gemini‑Robotics‑ER1.5 相媲美。

实战表现:一套策略搞定 12 类复杂任务
在宇树 G1 人形机器人平台上的验证表现亮眼:
多任务通用性:在同一策略网络(checkpoint)下,可稳定完成包含抓取、放置等在内的 12 项复杂操作任务。
鲁棒性强:真机实验显示,即使面对外部扰动,机器人依然能保持稳定执行与良好的抗干扰能力。
目前,宇树已在 GitHub 及项目主页公开完整的模型代码与相关资料,期望与全球开发者共同加速通用人形机器人的商业化落地。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?