DeepSeek 启动识图模式灰测,多模态视觉理解进入落地阶段

在 DeepSeek-V4 发布并引发行业关注仅五天后,DeepSeek 官方便开放了多模态识图功能的灰度测试,意味着其多模态能力开始实质落地。本次更新在移动端和网页端的输入栏新增“识图模式”入口,并明显标注“图片理解功能内测中”,完成了从纯文本/代码到视觉交互的关键升级。

测试结果显示,DeepSeek 在基础视觉理解与画面描述方面表现亮眼。面对复杂人物、环境构图以及摄影细节时,能够输出极高还原度的文字描述;开启“思考模式”后,模型展现出更强的逻辑推理能力,能依据文物的视觉特征准确推断其艺术风格与历史背景。同时,其对图片中文字的提取与场景识别也已达到行业主流水平。

不过,在更极端的视觉挑战下,该模块仍有优化空间。测试表明,处理碎片化、反色等抗干扰图像时,识别率会受影响;在元素计数和复杂图形的逻辑推理任务中,虽能进行自我博弈式的推理尝试,但在准确度和响应速度方面仍需提升。此外,对于最新的产品信息,受制于知识库更新周期,覆盖仍有限。

业内分析认为,目前该能力更像是挂载在主干模型上的视觉理解组件,主要通过灰度测试来验证多模态链路。随着 DeepSeek 视觉模块的快速迭代,国产大模型在原生多模态赛道上的竞争,正从“比参数规模”转向“比全场景感知”。此次内测既补齐了 DeepSeek 的关键功能短板,也释放出其原生多模态方案已进入最后准备阶段的信号。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享