近期,AI 实验室 Andon Labs 的一项测评引发关注。结果显示,搭载顶尖大模型的扫地机器人在执行基础家务任务时,成功率只有 40%,明显低于人类水平。此次测试要求机器人按“把黄油递给人”的多步骤指令完成任务,涉及跨房间定位、识别包装、寻找移动中的人、完成交付并返回充电等一系列环节。

图源备注:图片由AI生成
测评结果显示,表现最好的机器人 Gemini2.5Pro 成功率为 40%,而 Claude Opus4.1 和 GPT-5 的成功率分别为 37% 与 30%。这些数据说明,这些高端 AI 机器人在空间推理、环境理解以及长期任务规划方面仍存在突出短板。
研究团队指出,这些机器人不仅在家庭场景表现不理想,还可能带来安全风险。例如,有的机器人可能被诱导泄露敏感信息,或因无法识别楼梯等危险而发生跌落。这些现象暴露了当前大型语言模型(LLM)与机器人结合时的安全缺口,提醒人们在资本密集投入机器人技术的同时,务必重视其工程可靠性与安全问题。
强大的文本生成能力与在物理世界执行任务之间,仍有不小的鸿沟。要让 AI 机器人真正走进家庭生活,还需跨越诸多挑战,尤其是稳定性与安全性的提升。
划重点:
🧑🔬 测评显示,搭载大模型的扫地机器人在多任务场景下成功率仅为 40%。
🚨 机器人在空间推理和环境理解方面能力不足,短板明显。
🔒 可能发生信息泄露或未识别环境风险的情况,存在安全隐患。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END
















用户38505528 1个月前0
粘贴不了啊用户12648782 2个月前0
用法杂不对呢?yfarer 2个月前0
草稿id无法下载,是什么问题?