商汤发布开源 SenseNova-MARS:Agentic VLM 让 AI 具备自主“思考与执行”能力

2026年1月30日,商汤科技宣布开源其首款将动态视觉推理与图文检索深度结合的 Agentic VLM——SenseNova-MARS。模型提供 8B 与 32B 两种规模,通过“像侦探破案”般的推理流程,让 AI 从只会“理解”迈向能够自主“执行”。

性能跃升:多项排行榜超越 GPT-5.2

最新一轮行业基准里,SenseNova-MARS表现亮眼:

搜索推理夺冠:在 MMSearch(图文检索核心测评)上拿下 74.27 分,明显高于 GPT-5.2 的 66.08 分。

细节查找领先:在 HR-MMSearch(高分辨率细节检索评测)取得 54.43 分,与主流闭源模型拉开差距。

多维实力佐证:在 FVQA、InfoSeek 等多项权威视觉理解榜上,均拿到开源模型中的 SOTA(当前最佳)成绩。

核心能力:像人一样会用工具协作

SenseNova-MARS 的亮点在于“自主规划”,可自动处理“细节识别 + 信息检索 + 逻辑推理”的长链路复杂任务:

图像细节切分:可锁定占画面不足 5% 的微小元素(如车手服装上的 Logo),并自动放大进行分析。

动态图文检索:在识别物体或人物的同时,自动关联全球范围的相关资料,如设备型号或行业信息。

多跳深度推理:对“先放大—再识别—再查背景”这类流程不再犯难,展现出很强的“用工具直觉”。

训练方法:“因材施教”的两阶段路线

商汤团队采用两步式训练,为模型建立起更严密的推理链:

第一阶段(打基础):借助自动化数据合成引擎打造“高难度样例库”,让 AI 掌握多跳检索的基本思路,开局就直面真实且复杂的场景。

第二阶段(练实战):引入 BN-GSPO 算法做强化学习,类似训练侦探,通过奖励信号抑制波动,使模型在不同任务上持续稳定提升。

全面开源:赋能全球开发者

目前,商汤已将 SenseNova-MARS 的模型、代码与数据集完整开源。开发者可在 Hugging Face 直接获取,一起探索具身智能与自主 Agent 的更多可能。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享