DeepSeek 发布了新一代文档识别模型 DeepSeek-OCR2。 这次在视觉编码器上完成关键升级,专门针对传统模型在处理复杂版式时逻辑不清的问题给出新方案。

这次的核心升级来自自研的 DeepEncoder V2。 与传统视觉模型按固定栅格从左到右、从上到下处理图像不同,新模型引入了“视觉因果流”。 它会依据图像语义动态安排处理顺序,先对视觉内容做智能排序再识别文字,让机器的阅读路径更接近人类理解表格、公式和复杂文档的习惯。
在整体架构上仍采用高效的编解码框架。 图像经由 DeepEncoder V2 完成语义建模与顺序重排后,交给混合专家架构(MoE)语言模型解码。 实验结果显示,在 OmniDocBench v1.5 基准上,DeepSeek-OCR2 总分达到 91.09%,相较前代提升 3.73%。 尤其在阅读顺序方面,编辑距离明显降低,说明模型对内容结构的还原更准确。
同时,DeepSeek-OCR2 在实际使用中也更稳定。 在 PDF 批处理和在线日志数据的测试里,重复识别率显著下降。 这意味着在保持低资源开销的同时,模型能输出更高质量、逻辑更清晰的结果。
划重点:
-
动态语义排序: 依托“视觉因果流”技术,突破固定栅格流程,实现按语义的动态阅读。
-
性能跨越式提升: 在权威基准测试中,整体性能提升 3.73%,阅读顺序准确度大幅增强。
-
高效 MoE 架构: 延续 MoE 解码,在不增加算力压力的情况下,获得更高的识别精度与可靠性。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?