最新评估：大模型驱动的扫地机器人多任务表现欠佳，成功率仅 40%-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近期，AI 实验室 Andon Labs 的一项测评引发关注。结果显示，搭载顶尖大模型的扫地机器人在执行基础家务任务时，成功率只有 40%，明显低于人类水平。此次测试要求机器人按“把黄油递给人”的多步骤指令完成任务，涉及跨房间定位、识别包装、寻找移动中的人、完成交付并返回充电等一系列环节。

图源备注：图片由AI生成

测评结果显示，表现最好的机器人 Gemini2.5Pro 成功率为 40%，而 Claude Opus4.1 和 GPT-5 的成功率分别为 37% 与 30%。这些数据说明，这些高端 AI 机器人在空间推理、环境理解以及长期任务规划方面仍存在突出短板。

研究团队指出，这些机器人不仅在家庭场景表现不理想，还可能带来安全风险。例如，有的机器人可能被诱导泄露敏感信息，或因无法识别楼梯等危险而发生跌落。这些现象暴露了当前大型语言模型（LLM）与机器人结合时的安全缺口，提醒人们在资本密集投入机器人技术的同时，务必重视其工程可靠性与安全问题。

强大的文本生成能力与在物理世界执行任务之间，仍有不小的鸿沟。要让 AI 机器人真正走进家庭生活，还需跨越诸多挑战，尤其是稳定性与安全性的提升。

划重点:

🧑‍🔬 测评显示，搭载大模型的扫地机器人在多任务场景下成功率仅为 40%。

🚨 机器人在空间推理和环境理解方面能力不足，短板明显。

🔒 可能发生信息泄露或未识别环境风险的情况，存在安全隐患。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

最新评估：大模型驱动的扫地机器人多任务表现欠佳，成功率仅 40%