智谱推出0.9B轻量GLM-OCR:性能夺冠,千次处理只需0.1元

 智谱今日宣布上线并开源专业级 OCR 模型 GLM-OCR。这款模型仅有 0.9B 体量,却实现跨越式性能提升,在多项权威评测中名列前茅,专注解决复杂文档解析的真实业务难题。

核心能力:小体量也能跑出 SOTA

虽然参数规模只有 0.9B,GLM-OCR 的表现依旧亮眼。在权威文档解析榜单 OmniDocBench V1.5 上,以 94.6分摘得第一,实力接近通用大模型 Gemini-3-Pro。无论是文本识别、数学公式理解、复杂表格解析,还是关键信息抽取(KIE),都拿到 SOTA(业内最顶尖)成绩。

QQ20260203-085726.png

场景突破:聚焦复杂文档难点

GLM-OCR 围绕六大高难业务场景做了专项优化,表现稳定可靠:

  • 复杂表格: 支持合并单元格与多级表头,可直接生成标准 HTML。

  • 结构化提取: 智能识别各类卡证票据,输出符合规范的 JSON。

  • 手写体与代码: 适配教育科研中的手写公式,以及程序员的代码截图。

  • 特殊标识: 对印章识别和多语混排有极高鲁棒性。

QQ20260203-085732.png

极致效率:更快推理,更低成本

在性能与费用控制方面,GLM-OCR 具备强竞争力:

  • 高速推理: PDF 处理吞吐可达 1.86页/秒,明显领先同类;兼容 vLLM、Ollama 等主流部署。

  • 极致性价比: API 定价低至 0.2元/百万 Tokens。相较传统 OCR,成本仅为其十分之一,处理一千张 A4 扫描件约需 0.5 元。

技术解析:多模态架构结合强化学习

GLM-OCR 采用 GLM-V 系列多模态架构,集成自研 CogViT 视觉编码器。通过引入**多 Tokens 预测损失(MTP)**与全任务强化学习,模型在复杂版面下的泛化能力显著增强。其独特的 4 倍下采样策略与 SwiGLU 机制,让视觉信息与语言解码器高效协同。

目前,GLM-OCR 已在GitHubHugging Face同步开源,智谱开放平台也已上线相关 API 与优惠套餐。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享