腾讯混元开源 HunyuanOCR：1B 参数拿下多项 SOTA，多场景助力 OCR 应用-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

11月25日，腾讯混元对外开源全新一代 OCR 模型 HunyuanOCR。该模型仅约10亿参数（1B），基于混元原生多模态架构打造，在多项行业 OCR 评测中拿下 SOTA(最先进水平)成绩，为 OCR 技术落地提供轻量且高效的方案。

HunyuanOCR 整体遵循端到端范式，由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分组成。其最大优势是“高效省心”: 体积小、易部署，单次前向推理即可得到功能最优输出，效率显著优于业界常见级联方案。

性能方面，HunyuanOCR 表现出色。在复杂文档解析评测 OmniDocBench 中，以 94.1 分超越谷歌 Gemini3-Pro 等领先模型；在覆盖文档、手写、街景等 9 大场景的自建基准中，文字检测与识别能力显著领先同类开源与商业模型；在 OCRBench 榜单上，以 1B 参数拿下总参数 3B 以下模型 SOTA，总分 860。小语种翻译方面，支持 14 种常见小语种与中/英文互译，并夺得 ICDAR2025 端到端文档翻译比赛小模型赛道冠军。

在应用上，HunyuanOCR 能支持多语种复杂文档解析、票据字段 JSON 格式抽取、视频双语字幕自动提取等功能，已覆盖卡证处理、视频创作、跨境沟通等场景。当前，用户可通过 web 端、移动端链接或在 GitHub、Hugging Face 的开源地址下载体验，进入 Hugging Face 空间即可快速上手。

地址：

https://hunyuan.tencent.com/vision/zh?tabIndex=0

https://github.com/Tencent-Hunyuan/HunyuanOCR