多模态大模型最新评测发布!Gemini-3-Pro断层登顶,豆包与商汤领跑国产,Qwen3-VL成首个开源高分模型

全球多模态大模型的排位再次更新。近日,权威评测平台SuperCLUE-VLM公布2025年12月视觉语言模型综合榜单,谷歌Gemini-3-Pro以83.64分实现断层领先,在视觉理解与推理方面展现出强劲实力。商汤科技SenseNova V6.5Pro以75.35分位居第二;字节跳动豆包大模型以73.15分冲入前三。国产模型整体表现出色,体现出中国AI在多模态赛道的快速追赶。

 评测维度:三大能力全面衡量模型“眼力”

SuperCLUE-VLM从三项核心能力评估模型的真实视觉理解水平:

– 基础认知:识别图像中的物体、文字、场景等基本要素;

– 视觉推理:理解图像中的逻辑、因果关系与隐含信息;

– 视觉应用:完成图文生成、跨模态问答、工具调用等任务。

 Gemini-3-Pro全面领先,国产模型加速追赶

谷歌Gemini-3-Pro在三项指标中均遥遥领先:

– 基础认知:89.01分  

– 视觉推理:82.82分  

– 视觉应用:79.09分  

综合表现显著高于其他模型,进一步巩固了谷歌在多模态领域的领先地位。

国产阵营表现同样亮眼:

– 商汤SenseNova V6.5Pro以75.35分稳居第二,推理与应用能力较为均衡;

– 字节豆包大模型以73.15分位列第三,基础认知高达82.70,甚至超过部分国际模型,仅在视觉推理环节略有短板;

– 百度ERNIE-5.0-Preview与阿里Qwen3-VL紧随其后,均进入前五。

值得关注的是,Qwen3-VL成为榜单中首个总分突破70分的开源多模态模型,为全球开发者提供高性能、可商用的开放基座。

image.png

 国际巨头表现分化:Claude稳健,GPT-5.2表现不及预期

国际阵营方面,Anthropic的Claude-opus-4-5以71.44分处于中上游,延续其在语言理解上的优势;而OpenAI的GPT-5.2(high配置)仅获69.16分,排名偏后,业界也开始讨论其多模态能力的优化方向。

 AIbase观察:多模态竞赛迈入“实用化”阶段

这份SuperCLUE-VLM榜单不仅是技术排名,也折射出行业走向:  

– 开源模型崛起:Qwen3-VL证明开源路线同样能实现高性能,推动技术普及;  

– 国产聚焦场景落地:豆包、商汤等模型在基础认知上优势明显,契合中文互联网图文理解、短视频分析等高频场景;  

– 视觉推理仍是难点:多数模型在复杂逻辑与因果推断等高阶任务上仍有差距,这也是Gemini保持领先的关键。

随着多模态能力成为AI Agent、智能座舱、AR/VR等新一代应用的核心能力,这场“看图说话”的比拼,正在决定谁能更好地“看见”并理解世界。而中国大模型,已在迈向全球第一梯队的道路上加速奔跑。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享