多模态视觉大模型12月榜单:Gemini 领跑,豆包与商汤撑起国产旗帜

SuperCLUE-VLM 12月多模态视觉语言基准最新发布,全球 AI 大模型展开了激烈比拼。本次评测聚焦基础认知、视觉推理与视觉应用三大维度,全面检验各模型的“看得准”和“想得透”。

image.png

此次榜单中,谷歌的Gemini-3-pro以83.64分强势夺冠,凭借绝对优势拿下第一。细分数据显示,它在三项指标上均实现全面领先,体现了国际顶尖模型的深厚实力。国产阵营表现同样亮眼:商汤 SenseNova V6.5Pro 以75.35分位居次席,字节跳动的豆包视觉版以73.15分跻身前三。值得关注的是,豆包在基础认知维度上的成绩甚至超过了部分海外强手。

此外,百度 ERNIE-5.0-Preview 与阿里巴巴的 Qwen3-vl 也成功挤进前五。其中,Qwen3-vl 成为榜单中首个总分突破70分的开源模型,为开源社区贡献了强劲的视觉解析能力。

相较之下,部分国际老牌选手本次表现略显平淡。Anthropic 的 Claude-opus-4-5 收获71.44分,而 OpenAI 的 GPT-5.2(high)则意外跌出第一梯队,仅以69.16分排名靠后。这一变化也预示着多模态 AI 赛道的竞争正在加速升温。

划重点:

  • 🏆 全球领跑: 谷歌 Gemini-3-pro 以83.64分登顶,在基础认知、视觉推理和应用三项指标上均居第一

  • 🇨🇳 国产爆发: 商汤 SenseNova 与字节跳动豆包分列第二、第三,体现中国大模型在视觉理解领域的强劲实力。

  • 📊 行业洗牌: Qwen3-vl 成为首个破70分的开源模型,而 GPT-5.2(high)在本次视觉测评中发挥不及预期,位居后列。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享