百度推出文心系PaddleOCR-VL-1.6:准确率达到96.33%,刷新文档解析SOTA纪录

百度近日正式推出文心大模型的衍生模型PaddleOCR-VL-1.6。在OmniDocBench v1.6权威评测中,该模型以96.33%的准确率超过Gemini-3-Pro、GPT-5.2以及GLM-OCR等海内外主流大模型,刷新行业SOTA成绩,综合表现位列全球第一。这次发布也意味着,多模态大模型在复杂文档理解和真实场景解析方面实现了重要进展。

作为文心大模型多模态能力的重要组成部分,PaddleOCR依托文心大模型进行训练,目前已支持100多种语言识别,用户遍及全球170多个国家和地区。此次升级后的PaddleOCR-VL-1.6,在延续0.9B轻量化架构的基础上,借助模型驱动的数据构建机制和渐进式训练优化,明显增强了表格、古籍、生僻字、印章以及图表识别等复杂场景中的核心识别能力。

在面向真实复杂环境的Real5-OmniDocBench评测中,该模型也凭借93.19%的综合指标继续保持领先,成功解决了扫描件、弯曲褶皱、屏幕拍摄、光线变化以及文档倾斜等行业公认的解析难题。

由于沿用了上一代架构,企业和开发者能够在无需额外适配的情况下实现平滑迁移。目前,PaddleOCR在GitHub上的Star数量已经超过79.2K,领先谷歌Tesseract OCR,成为全球最受欢迎的开源OCR项目。新模型现已在官网上线,并同步开源代码和权重。在当前大模型持续向多模态深入发展的背景下,PaddleOCR-VL-1.6不仅为文档数字化带来了更高效的产业级方案,也将进一步推动AI在复杂多模态场景中的实际应用落地。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享