宇树开源 UnifoLM-VLA-0：让通用人形机器人学会“物理常识”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

宇树开源 UnifoLM-VLA-0：让通用人形机器人学会“物理常识”

拥抱AI，AIGC最佳实践者

3113

宇树宣布将 UnifoLM-VLA-0 大模型全面开源。作为 UnifoLM 系列中面向通用人形机器人操作的视觉-语言-动作（VLA）模型，这一步标志着机器人大脑从“只会图文理解”迈向具备“物理常识”的具身智能。

技术亮点：把“看懂”到“会做”深度打通

UnifoLM‑VLA‑0 直面传统视觉语言模型（VLM）在物理交互方面的短板：

具身智能进化：在大量机器人操作数据上持续预训练，让模型理解物理交互规律，不再只停留在语义层面。

空间细节对齐：将文本指令与 2D/3D 空间信息深度融合，显著提升在复杂环境中的空间感知与位置推理能力。

动力学约束：引入动作分块预测与前向/逆向动力学约束，实现对长时序动作序列的统一建模。

研发架构：基于 Qwen2.5-VL 的再进化

宇树使用系统清洗后的多任务数据集对模型进行了深度打磨：

核心基座：基于开源的 Qwen2.5‑VL‑7B 构建。

高效训练：仅用约 340 小时的真机数据进行离散动作预测训练，便实现了良好的任务泛化。

性能评估：在空间理解基准测试中，表现不仅大幅超过基座模型，在特定设置下甚至可与 Gemini‑Robotics‑ER1.5 相媲美。

实战表现：一套策略搞定 12 类复杂任务

在宇树 G1 人形机器人平台上的验证表现亮眼：

多任务通用性：在同一策略网络（checkpoint）下，可稳定完成包含抓取、放置等在内的 12 项复杂操作任务。

鲁棒性强：真机实验显示，即使面对外部扰动，机器人依然能保持稳定执行与良好的抗干扰能力。

目前，宇树已在 GitHub 及项目主页公开完整的模型代码与相关资料，期望与全球开发者共同加速通用人形机器人的商业化落地。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐