腾讯推出 HunyuanOCR 开源模型，1B 参数拿下多项 SOTA-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

近日，腾讯正式发布开源模型 HunyuanOCR，参数规模仅为 1B。该模型基于腾讯自研的混元多模态架构，在多项主流 OCR 基准上取得了 SOTA（最先进水平）成绩。腾讯表示，HunyuanOCR 采用“端到端”设计，一次前向推理即可快速获得最优结果。

HunyuanOCR 主要由三大核心组件构成：原生分辨率视频编码器、自适应视觉适配器、轻量化混元语言模型。不同于市面上常见的 OCR 模型，Hunyuan 采用端到端的训练与推理方式，并结合大规模应用导向数据与在线强化学习，展现出强大的推理能力。

在复杂文档解析评测中，HunyuanOCR 以 94.1 的高分超越了包括谷歌 Gemini3-pro 在内的多款领先模型。其文字检测与识别表现同样出色，覆盖文档、艺术字、街景、手写、广告、票据等多种场景。相较于其他开源与商业 OCR 模型，该模型成绩更优，在相关 OCR 榜单中总分达到 860 分，位列总参数 3B 以下模型的前列。

HunyuanOCR 还支持 14 种语种的翻译功能，在翻译任务中表现亮眼。面向复杂文档电子化处理，该模型可将扫描件或拍摄图中的文本按阅读顺序组织，并能够用 LaTeX 表示公式、用 HTML 表示复杂表格。

应用层面，HunyuanOCR 适用于多语种文档解析、票据字段抽取、视频字幕识别与拍照翻译等任务，展现出广泛的落地潜力。

github:https://github.com/Tencent-Hunyuan/HunyuanOCR