DeepSeek 启动识图模式灰测，多模态视觉理解进入落地阶段-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在 DeepSeek-V4 发布并引发行业关注仅五天后，DeepSeek 官方便开放了多模态识图功能的灰度测试，意味着其多模态能力开始实质落地。本次更新在移动端和网页端的输入栏新增“识图模式”入口，并明显标注“图片理解功能内测中”，完成了从纯文本/代码到视觉交互的关键升级。

测试结果显示，DeepSeek 在基础视觉理解与画面描述方面表现亮眼。面对复杂人物、环境构图以及摄影细节时，能够输出极高还原度的文字描述；开启“思考模式”后，模型展现出更强的逻辑推理能力，能依据文物的视觉特征准确推断其艺术风格与历史背景。同时，其对图片中文字的提取与场景识别也已达到行业主流水平。

不过，在更极端的视觉挑战下，该模块仍有优化空间。测试表明，处理碎片化、反色等抗干扰图像时，识别率会受影响；在元素计数和复杂图形的逻辑推理任务中，虽能进行自我博弈式的推理尝试，但在准确度和响应速度方面仍需提升。此外，对于最新的产品信息，受制于知识库更新周期，覆盖仍有限。

业内分析认为，目前该能力更像是挂载在主干模型上的视觉理解组件，主要通过灰度测试来验证多模态链路。随着 DeepSeek 视觉模块的快速迭代，国产大模型在原生多模态赛道上的竞争，正从“比参数规模”转向“比全场景感知”。此次内测既补齐了 DeepSeek 的关键功能短板，也释放出其原生多模态方案已进入最后准备阶段的信号。