百度推出文心系PaddleOCR-VL-1.6：准确率达到96.33%，刷新文档解析SOTA纪录-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

百度近日正式推出文心大模型的衍生模型PaddleOCR-VL-1.6。在OmniDocBench v1.6权威评测中，该模型以96.33%的准确率超过Gemini-3-Pro、GPT-5.2以及GLM-OCR等海内外主流大模型，刷新行业SOTA成绩，综合表现位列全球第一。这次发布也意味着，多模态大模型在复杂文档理解和真实场景解析方面实现了重要进展。

作为文心大模型多模态能力的重要组成部分，PaddleOCR依托文心大模型进行训练，目前已支持100多种语言识别，用户遍及全球170多个国家和地区。此次升级后的PaddleOCR-VL-1.6，在延续0.9B轻量化架构的基础上，借助模型驱动的数据构建机制和渐进式训练优化，明显增强了表格、古籍、生僻字、印章以及图表识别等复杂场景中的核心识别能力。

在面向真实复杂环境的Real5-OmniDocBench评测中，该模型也凭借93.19%的综合指标继续保持领先，成功解决了扫描件、弯曲褶皱、屏幕拍摄、光线变化以及文档倾斜等行业公认的解析难题。

由于沿用了上一代架构，企业和开发者能够在无需额外适配的情况下实现平滑迁移。目前，PaddleOCR在GitHub上的Star数量已经超过79.2K，领先谷歌Tesseract OCR，成为全球最受欢迎的开源OCR项目。新模型现已在官网上线，并同步开源代码和权重。在当前大模型持续向多模态深入发展的背景下，PaddleOCR-VL-1.6不仅为文档数字化带来了更高效的产业级方案，也将进一步推动AI在复杂多模态场景中的实际应用落地。