DeepSeek-OCR2 全面上线:搭载“视觉因果流”,文档阅读更贴近人类思维

DeepSeek 发布了新一代文档识别模型 DeepSeek-OCR2。 这次在视觉编码器上完成关键升级,专门针对传统模型在处理复杂版式时逻辑不清的问题给出新方案。

image.png

这次的核心升级来自自研的 DeepEncoder V2。 与传统视觉模型按固定栅格从左到右、从上到下处理图像不同,新模型引入了“视觉因果流”。 它会依据图像语义动态安排处理顺序,先对视觉内容做智能排序再识别文字,让机器的阅读路径更接近人类理解表格、公式和复杂文档的习惯。

在整体架构上仍采用高效的编解码框架。 图像经由 DeepEncoder V2 完成语义建模与顺序重排后,交给混合专家架构(MoE)语言模型解码。 实验结果显示,在 OmniDocBench v1.5 基准上,DeepSeek-OCR2 总分达到 91.09%,相较前代提升 3.73%。 尤其在阅读顺序方面,编辑距离明显降低,说明模型对内容结构的还原更准确。

同时,DeepSeek-OCR2 在实际使用中也更稳定。 在 PDF 批处理和在线日志数据的测试里,重复识别率显著下降。 这意味着在保持低资源开销的同时,模型能输出更高质量、逻辑更清晰的结果。

划重点:

  • 动态语义排序: 依托“视觉因果流”技术,突破固定栅格流程,实现按语义的动态阅读。

  • 性能跨越式提升: 在权威基准测试中,整体性能提升 3.73%,阅读顺序准确度大幅增强。

  • 高效 MoE 架构: 延续 MoE 解码,在不增加算力压力的情况下,获得更高的识别精度与可靠性。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享