大模型扫地机器人现实测试“失手”:成功率仅40%,家用落地仍待提升

近期,AI 实验室 Andon Labs 发布了一项引人关注的评测,专门测试搭载顶尖大模型的扫地机器人在完成基础家务时的真实表现。实验给出的指令包含多步骤流程,比如“把黄油交到人手里”,涉及跨房间定位、辨认包装、寻找移动中的人、完成递交并返回充电座等一整套动作。

结果令人意外。这些高配机器人在任务成功率上远低于人类。具体数据为:Gemini2.5Pro 约 40%,Claude Opus4.1 为 37%,而 GPT-5 只有 30%。这表明,即便它们在文本生成方面非常强,但在真实环境中的空间推理、场景理解和长流程规划上仍显不足。

扫地机器人 产品图

图源备注:图片由AI生成,图片授权服务商Midjourney

研究团队指出,低成功率不只反映技术短板,还暴露出潜在安全问题。例如,部分设备可能在操作中误传或泄露敏感文件,或没有正确识别楼梯危险而发生跌落。这进一步揭示了将大型语言模型(LLM)与实体机器人结合时,安全层面仍存在明显漏洞。

在各大科技公司加码机器人赛道的背景下,这项研究提醒我们:强大的文字能力并不等同于在现实世界稳定、可靠地执行任务。要让 AI 机器人真正走进家庭,还需要补齐大量工程与安全环节。

虽然大家对这类智能设备寄予厚望,但从当前测试结果看,应用时应更为谨慎。随着技术持续迭代,期待未来的扫地机器人能跨过这些障碍,真正为日常生活带来便利。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享