在具身智能技术由实验阶段走向现实应用的重要时期,机器人怎样更准确地理解指令,并在复杂环境中自主完成作业,已成为行业关注的核心问题。6月16日,阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列,为不同类型的机器人带来了一个可以理解自然语言、感知三维空间并掌握物理规律的“通用底座”。
Qwen-Robot系列共包含三款核心模型,它们既可以单独完成任务,也能相互配合运行,组成了千问家族首个完整的具身智能模型矩阵。

首先是负责关键操作能力的Qwen-RobotManip。为了应对传统模型在切换机器人平台后性能明显下降的问题,这一模型采用了统一动作表征,并结合大量开源语料完成了超过38000小时的预训练。在第三方测评中,它的不同版本不仅拿下了任务成功率前两名,还展示出从基础拧水龙头到双臂倒薯条等复杂高难任务上的突破表现。
其次是让机器人具备“认路”和“跑腿”能力的Qwen-RobotNav。该模型把任务指令理解、目标搜索和自动驾驶等五项导航能力整合进同一个框架中。创新的“任务自适应观察机制”使机器人不再依赖固定僵硬的记忆策略,能够灵活做到“边走、边看、边规划”,从而在复杂陌生环境里高效完成找物任务。
最后是增强机器人“思考”能力的Qwen-RobotWorld模型。这是一款物理世界模型,它可以像运动员提前预演动作那样,对下一时刻的物理状态和动作进行推演。这不仅能够有效缓解训练数据不足的问题,也能让机器人在执行动作前先完成轨迹预演,进而提升物理操作的精准度。
在这三大模型的协同作用下,具身智能系统能够进一步实现视觉感知、语言理解和动作决策的深度融合。随着这一系列模型正式亮相,机器人执行任务的泛化能力有望明显提升,这也说明机器人进入真实生活场景的进程正在继续提速。


















用户38505528 9个月前0
粘贴不了啊用户12648782 10个月前0
用法杂不对呢?yfarer 10个月前0
草稿id无法下载,是什么问题?