Qwen3-VL夺冠SpatialBench:空间推理拿下13.5分创最佳,3D检测全面进化

阿里旗下千问视觉模型在第三方空间推理评测SpatialBench包揽前两名:Qwen3-VL拿到13.5分、Qwen2.5-VL获得12.9分,显著领先Gemini 3.0 Pro Preview(9.6分)与GPT-5.1(7.5分),与人类基线80分的差距继续缩小。

image.png

榜单特点  

SpatialBench聚焦2D/3D空间、结构与路径推理,涵盖电路分析、CAD工程、分子生物等高难任务,被视为验证“具身智能”能力的重要基准。

模型亮点  

– 3D检测升级:Qwen3-VL加入旋转框输出与深度估计头,在遮挡场景AP↑18%,可更准确判断物体朝向与视角变化  

– 视觉编程:输入草图或10秒短视频即可生成可运行的Python+OpenCV代码,实现“看得见就能直接跑”  

– 规模多样:提供2B/4B/8B/32B密集模型,以及30B-A3B、235B-A22B MoE版本;推理版在32项核心能力评测中,平均领先Gemini 2.5-Pro 6.4分

开源节奏  

Qwen2.5-VL已全面开源;Qwen3-VL预计在2025年Q2开放权重与工具链,并同步上线千问App提供免费体验。

落地进展  

阿里云表示,Qwen3-VL已在物流机器人、AR装配、智慧港口等场景完成POC,空间定位误差<2cm;计划在2026年推出“视觉-动作”端到端模型,为机器人带来实时视觉伺服能力。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享