最新评估:大模型驱动的扫地机器人多任务表现欠佳,成功率仅 40%

近期,AI 实验室 Andon Labs 的一项测评引发关注。结果显示,搭载顶尖大模型的扫地机器人在执行基础家务任务时,成功率只有 40%,明显低于人类水平。此次测试要求机器人按“把黄油递给人”的多步骤指令完成任务,涉及跨房间定位、识别包装、寻找移动中的人、完成交付并返回充电等一系列环节。

扫地机器人 产品图

图源备注:图片由AI生成

测评结果显示,表现最好的机器人 Gemini2.5Pro 成功率为 40%,而 Claude Opus4.1 和 GPT-5 的成功率分别为 37% 与 30%。这些数据说明,这些高端 AI 机器人在空间推理、环境理解以及长期任务规划方面仍存在突出短板。

研究团队指出,这些机器人不仅在家庭场景表现不理想,还可能带来安全风险。例如,有的机器人可能被诱导泄露敏感信息,或因无法识别楼梯等危险而发生跌落。这些现象暴露了当前大型语言模型(LLM)与机器人结合时的安全缺口,提醒人们在资本密集投入机器人技术的同时,务必重视其工程可靠性与安全问题。

强大的文本生成能力与在物理世界执行任务之间,仍有不小的鸿沟。要让 AI 机器人真正走进家庭生活,还需跨越诸多挑战,尤其是稳定性与安全性的提升。

划重点:  

🧑‍🔬 测评显示,搭载大模型的扫地机器人在多任务场景下成功率仅为 40%。  

🚨 机器人在空间推理和环境理解方面能力不足,短板明显。  

🔒 可能发生信息泄露或未识别环境风险的情况,存在安全隐患。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享