商汤发布开源 SenseNova-MARS：Agentic VLM 让 AI 具备自主“思考与执行”能力-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

2026年1月30日，商汤科技宣布开源其首款将动态视觉推理与图文检索深度结合的 Agentic VLM——SenseNova-MARS。模型提供 8B 与 32B 两种规模，通过“像侦探破案”般的推理流程，让 AI 从只会“理解”迈向能够自主“执行”。

性能跃升:多项排行榜超越 GPT-5.2

在最新一轮行业基准里，SenseNova-MARS表现亮眼:

搜索推理夺冠:在 MMSearch（图文检索核心测评）上拿下 74.27 分，明显高于 GPT-5.2 的 66.08 分。

细节查找领先:在 HR-MMSearch（高分辨率细节检索评测）取得 54.43 分，与主流闭源模型拉开差距。

多维实力佐证:在 FVQA、InfoSeek 等多项权威视觉理解榜上，均拿到开源模型中的 SOTA（当前最佳）成绩。

核心能力:像人一样会用工具协作

SenseNova-MARS 的亮点在于“自主规划”，可自动处理“细节识别 + 信息检索 + 逻辑推理”的长链路复杂任务:

图像细节切分:可锁定占画面不足 5% 的微小元素（如车手服装上的 Logo），并自动放大进行分析。

动态图文检索:在识别物体或人物的同时，自动关联全球范围的相关资料，如设备型号或行业信息。

多跳深度推理:对“先放大—再识别—再查背景”这类流程不再犯难，展现出很强的“用工具直觉”。

训练方法:“因材施教”的两阶段路线

商汤团队采用两步式训练，为模型建立起更严密的推理链:

第一阶段（打基础）:借助自动化数据合成引擎打造“高难度样例库”，让 AI 掌握多跳检索的基本思路，开局就直面真实且复杂的场景。

第二阶段（练实战）:引入 BN-GSPO 算法做强化学习，类似训练侦探，通过奖励信号抑制波动，使模型在不同任务上持续稳定提升。

全面开源:赋能全球开发者

目前，商汤已将 SenseNova-MARS 的模型、代码与数据集完整开源。开发者可在 Hugging Face 直接获取，一起探索具身智能与自主 Agent 的更多可能。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

商汤发布开源 SenseNova-MARS：Agentic VLM 让 AI 具备自主“思考与执行”能力