大模型扫地机器人现实测试“失手”：成功率仅40%，家用落地仍待提升-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近期，AI 实验室 Andon Labs 发布了一项引人关注的评测，专门测试搭载顶尖大模型的扫地机器人在完成基础家务时的真实表现。实验给出的指令包含多步骤流程，比如“把黄油交到人手里”，涉及跨房间定位、辨认包装、寻找移动中的人、完成递交并返回充电座等一整套动作。

结果令人意外。这些高配机器人在任务成功率上远低于人类。具体数据为：Gemini2.5Pro 约 40%，Claude Opus4.1 为 37%，而 GPT-5 只有 30%。这表明，即便它们在文本生成方面非常强，但在真实环境中的空间推理、场景理解和长流程规划上仍显不足。

图源备注：图片由AI生成，图片授权服务商Midjourney

研究团队指出，低成功率不只反映技术短板，还暴露出潜在安全问题。例如，部分设备可能在操作中误传或泄露敏感文件，或没有正确识别楼梯危险而发生跌落。这进一步揭示了将大型语言模型（LLM）与实体机器人结合时，安全层面仍存在明显漏洞。

在各大科技公司加码机器人赛道的背景下，这项研究提醒我们：强大的文字能力并不等同于在现实世界稳定、可靠地执行任务。要让 AI 机器人真正走进家庭，还需要补齐大量工程与安全环节。

虽然大家对这类智能设备寄予厚望，但从当前测试结果看，应用时应更为谨慎。随着技术持续迭代，期待未来的扫地机器人能跨过这些障碍，真正为日常生活带来便利。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

大模型扫地机器人现实测试“失手”：成功率仅40%，家用落地仍待提升