在人工智能频频摘下各类博士难题桂冠的当下,很多人默认这些“数字大脑”已全面超越人类。然而,UniPat AI、xbench、阿里、月之暗面与阶跃星辰等多家顶尖机构联合发布的一项最新研究却泼下冷水:即使是赛道领先的 Gemini 3 Pro Preview,在视觉推理上也只略胜三岁幼儿,面对六岁儿童的认知水平仍存在约 20% 的能力差距。

这场名为 BabyVision 的视觉推理“闭卷测试”,直击大模型在真实世界感知上的痛点。人类幼儿轻松搞定“找不同”和空间拼拼图,面对同样任务,擅长数学和逻辑的大模型却频频失误。
推理里的“语言偏科”:AI 为何总看不明白?
为什么拥有海量参数的模型会栽在基础视觉题上?研究表明,关键在于这些模型本质上仍是“语言驱动”。处理图像时,它们习惯先把画面转成文字,再进行推理。这种“绕一圈”的方法在宏观概念上尚可,但遇到不易用语言精准描述的视觉细节——比如细微的曲线错位、复杂几何交叉点、或微妙的遮挡关系——信息会在转述过程中被大量丢弃。

视觉推理的四个“失手点”
研究团队用 BabyVision 基准,将大模型的视觉短板归纳为四类:
-
非语言的微小细节把握不准:模型难以分辨像素级几何差异;在形状拼配时,常因无法“心算”旋转对齐而选错。
-
流形一致性容易中断:在长路径连线或轨迹跟踪题里,一遇到交叉点就容易“走错路”,并丢失原有视觉线索。
-
空间想象力不足:文字难以忠实还原三维;推断积木侧视图或隐藏体积时,常出现层数计算不准、投影判断错误。
-
视觉模式归纳困难:更倾向于机械地“数属性”,而不是理解变化规律;从少量例子中提炼深层因果逻辑的能力较弱。
具身智能的压力与转机
这一结论让当下火热的“具身智能”赛道面临现实考验。如果 AI 连六岁儿童的物理感知都达不到,我们如何放心把它投向真实世界去协助人类?
为破解瓶颈,研究者提出两条进化思路:其一是引入强化学习(RLVR),通过明确的中间推理步骤,降低感知不确定性;其二是全面拥抱原生多模态推理,让模型像 Sora 2 一样,直接在像素空间进行“视觉演算”,而不是绕道文字。
这场看似“返祖”的研究提醒我们:通往通用人工智能(AGI)的关键,或许不在更难的数学题,而在那些六岁孩子就能玩转的拼图与图形游戏里。



















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?