腾讯混元开源 HunyuanOCR:1B 参数拿下多项 SOTA,多场景助力 OCR 应用

11月25日,腾讯混元对外开源全新一代 OCR 模型 HunyuanOCR。该模型仅约10亿参数(1B),基于混元原生多模态架构打造,在多项行业 OCR 评测中拿下 SOTA(最先进水平)成绩,为 OCR 技术落地提供轻量且高效的方案。

QQ20251125-145232.png

HunyuanOCR 整体遵循端到端范式,由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分组成。其最大优势是“高效省心”: 体积小、易部署,单次前向推理即可得到功能最优输出,效率显著优于业界常见级联方案

QQ20251125-145249.png

性能方面,HunyuanOCR 表现出色。在复杂文档解析评测 OmniDocBench 中,以 94.1 分超越谷歌 Gemini3-Pro 等领先模型;在覆盖文档、手写、街景等 9 大场景的自建基准中,文字检测与识别能力显著领先同类开源与商业模型;在 OCRBench 榜单上,以 1B 参数拿下总参数 3B 以下模型 SOTA,总分 860。小语种翻译方面,支持 14 种常见小语种与中/英文互译,并夺得 ICDAR2025 端到端文档翻译比赛小模型赛道冠军。

QQ20251125-145300.png

在应用上,HunyuanOCR 能支持多语种复杂文档解析、票据字段 JSON 格式抽取、视频双语字幕自动提取等功能,已覆盖卡证处理、视频创作、跨境沟通等场景。当前,用户可通过 web 端、移动端链接或在 GitHub、Hugging Face 的开源地址下载体验,进入 Hugging Face 空间即可快速上手。

地址:

https://hunyuan.tencent.com/vision/zh?tabIndex=0

https://github.com/Tencent-Hunyuan/HunyuanOCR

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享