阿里旗下千问视觉模型在第三方空间推理评测SpatialBench包揽前两名:Qwen3-VL拿到13.5分、Qwen2.5-VL获得12.9分,显著领先Gemini 3.0 Pro Preview(9.6分)与GPT-5.1(7.5分),与人类基线80分的差距继续缩小。

榜单特点
SpatialBench聚焦2D/3D空间、结构与路径推理,涵盖电路分析、CAD工程、分子生物等高难任务,被视为验证“具身智能”能力的重要基准。
模型亮点
– 3D检测升级:Qwen3-VL加入旋转框输出与深度估计头,在遮挡场景AP↑18%,可更准确判断物体朝向与视角变化
– 视觉编程:输入草图或10秒短视频即可生成可运行的Python+OpenCV代码,实现“看得见就能直接跑”
– 规模多样:提供2B/4B/8B/32B密集模型,以及30B-A3B、235B-A22B MoE版本;推理版在32项核心能力评测中,平均领先Gemini 2.5-Pro 6.4分
开源节奏
Qwen2.5-VL已全面开源;Qwen3-VL预计在2025年Q2开放权重与工具链,并同步上线千问App提供免费体验。
落地进展
阿里云表示,Qwen3-VL已在物流机器人、AR装配、智慧港口等场景完成POC,空间定位误差<2cm;计划在2026年推出“视觉-动作”端到端模型,为机器人带来实时视觉伺服能力。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?