硅智能的“视觉短板”:头部大模型看图推理竟不如 6 岁儿童?

在人工智能频频拿下各类博士级竞赛的当下,很多人以为这些数字大脑已全面领先人类。但由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合推出的最新评测却给这份乐观浇了冷水:即便是赛道里的领跑者 Gemini 3 Pro Preview,视觉推理也只是略胜三岁幼儿;与六岁儿童相比,仍有约 20% 的能力差距。

image.png

这场名为 BabyVision 的“闭卷”看图推理测试,直观揭示了大模型在物理世界感知上的短板。那些能轻松解高难度数学题的 AI,在幼儿随手就能完成的“找不同”和空间拼图上却频频失误。

推理的“语言陷阱”:AI 为什么总是看不准?

明明参数海量,模型为何在基础视觉任务上屡屡卡壳?研究指出,关键在于它们仍是地地道道的“语言驱动”。处理图像时,模型习惯把画面先转成文字,再做逻辑推演。这种绕路方法在宏观描述上还凑合,但遇到难以精准用语言捕捉的细节——比如细微的曲线偏差、复杂的几何交汇点、以及微妙的遮挡关系——信息就在“翻译”中被大量丢掉。

image.png

视觉推理的四大“落点失误”

研究团队基于 BabyVision 基准,把模型的视觉弱项归纳为四类:

  • 非语言的精细感知缺口:模型难以区分像素级的几何差别;在拼图匹配里,经常因为无法在脑中“旋转对齐”形状而选错。

  • 流形一致性不稳:做长路径连线或轨迹追踪时,模型像走迷宫的小朋友,一遇到交叉点就容易“跑偏”,丢掉原有的线索。

  • 空间想象力不足:文字难以忠实呈现三维结构;推断积木侧视图或隐蔽物体体积时,模型常常数错层数、投影也容易出差。

  • 视觉模式归纳吃力:更偏向机械地“数属性”,而不是理解变化规律;面对少量示例,难以抽象出更深的因果逻辑。

image.png

具身智能的阵痛与方向

这一发现让“具身智能”赛道压力陡增:若 AI 连六岁孩子那样准确识别身边物理环境都做不到,又如何在真实世界里安全地帮人类?

为突破瓶颈,研究者提出两条演进路线:其一,引入强化学习(RLVR),用显式的中间推理来对冲感知不确定性;其二,全面拥抱原生多模态推理,让模型像 Sora 2 那样直接在像素空间进行“视觉计算”,而不是依赖语言中介。

这场像是“返祖”的研究提醒我们:通往通用人工智能(AGI)的关键,或许不在更难的数学题,而在那些六岁孩子也能轻松搞定的拼图与看图理解里。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享