近日,腾讯 Robotics X 实验室联合腾讯混元团队正式推出面向具身智能的基础模型 HY-Embodied-0.5。该模型旨在解决通用视觉语言模型(VLM)在精细三维理解与物理交互上的不足,推动大模型的认知能力实质延伸到机器人控制领域。
这套模型并非在通用基座上做简单微调,而是从架构到训练范式进行了全新设计。团队同步发布两款主力模型:MoT-2B(总参4B,激活2B)主打端侧低时延与实时响应,MoE-32B(总参407B,激活32B)追求极致推理表现。
在技术方面,团队提出视觉与语言模态参数不共享的混合 Transformer(MoT)新架构,配合原生分辨率视觉编码器 HY-ViT2.0 与视觉潜在 Token 机制,有效缓解小模型在多模态训练中的灾难性遗忘。训练层面,依托超 1 亿条高质量具身专属数据,结合拒绝采样微调、强化学习与在线蒸馏等多阶段后训练策略,推动模型思维链持续演进。
评测结果显示,MoT-2B 在涵盖感知、推理、规划的 22 项权威基准中取得 16 项最佳,整体表现超过同参数量级的 Qwen3-VL-4B 和 RoboBrain2.5;旗舰版 MoE-A32B 的综合成绩也能与 Gemini3.0Pro 等国际标杆相抗衡。
在实机测试中,基于该基座的机器人在打包、堆叠等任务上优于主流基线模型。这一进展为具身智能从仿真走向真实物理场景提供了高性能的底层支撑。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?