2026年1月30日,商汤科技宣布开源其首款将动态视觉推理与图文检索深度结合的 Agentic VLM——SenseNova-MARS。模型提供 8B 与 32B 两种规模,通过“像侦探破案”般的推理流程,让 AI 从只会“理解”迈向能够自主“执行”。
性能跃升:多项排行榜超越 GPT-5.2
在最新一轮行业基准里,SenseNova-MARS表现亮眼:
搜索推理夺冠:在 MMSearch(图文检索核心测评)上拿下 74.27 分,明显高于 GPT-5.2 的 66.08 分。
细节查找领先:在 HR-MMSearch(高分辨率细节检索评测)取得 54.43 分,与主流闭源模型拉开差距。
多维实力佐证:在 FVQA、InfoSeek 等多项权威视觉理解榜上,均拿到开源模型中的 SOTA(当前最佳)成绩。
核心能力:像人一样会用工具协作
SenseNova-MARS 的亮点在于“自主规划”,可自动处理“细节识别 + 信息检索 + 逻辑推理”的长链路复杂任务:
图像细节切分:可锁定占画面不足 5% 的微小元素(如车手服装上的 Logo),并自动放大进行分析。
动态图文检索:在识别物体或人物的同时,自动关联全球范围的相关资料,如设备型号或行业信息。
多跳深度推理:对“先放大—再识别—再查背景”这类流程不再犯难,展现出很强的“用工具直觉”。
训练方法:“因材施教”的两阶段路线
商汤团队采用两步式训练,为模型建立起更严密的推理链:
第一阶段(打基础):借助自动化数据合成引擎打造“高难度样例库”,让 AI 掌握多跳检索的基本思路,开局就直面真实且复杂的场景。
第二阶段(练实战):引入 BN-GSPO 算法做强化学习,类似训练侦探,通过奖励信号抑制波动,使模型在不同任务上持续稳定提升。
全面开源:赋能全球开发者
目前,商汤已将 SenseNova-MARS 的模型、代码与数据集完整开源。开发者可在 Hugging Face 直接获取,一起探索具身智能与自主 Agent 的更多可能。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?