腾讯发布 HY-Embodied-0.5 具身基座：22项评测夺得16项第一，创行业新高-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，腾讯 Robotics X 实验室联合腾讯混元团队正式推出面向具身智能的基础模型 HY-Embodied-0.5。该模型旨在解决通用视觉语言模型（VLM）在精细三维理解与物理交互上的不足，推动大模型的认知能力实质延伸到机器人控制领域。

这套模型并非在通用基座上做简单微调，而是从架构到训练范式进行了全新设计。团队同步发布两款主力模型：MoT-2B（总参4B，激活2B）主打端侧低时延与实时响应，MoE-32B(总参407B，激活32B)追求极致推理表现。

在技术方面，团队提出视觉与语言模态参数不共享的混合 Transformer（MoT）新架构，配合原生分辨率视觉编码器 HY-ViT2.0 与视觉潜在 Token 机制，有效缓解小模型在多模态训练中的灾难性遗忘。训练层面，依托超 1 亿条高质量具身专属数据，结合拒绝采样微调、强化学习与在线蒸馏等多阶段后训练策略，推动模型思维链持续演进。

评测结果显示，MoT-2B 在涵盖感知、推理、规划的 22 项权威基准中取得 16 项最佳，整体表现超过同参数量级的 Qwen3-VL-4B 和 RoboBrain2.5；旗舰版 MoE-A32B 的综合成绩也能与 Gemini3.0Pro 等国际标杆相抗衡。

在实机测试中，基于该基座的机器人在打包、堆叠等任务上优于主流基线模型。这一进展为具身智能从仿真走向真实物理场景提供了高性能的底层支撑。