11月25日,腾讯混元对外开源全新一代 OCR 模型 HunyuanOCR。该模型仅约10亿参数(1B),基于混元原生多模态架构打造,在多项行业 OCR 评测中拿下 SOTA(最先进水平)成绩,为 OCR 技术落地提供轻量且高效的方案。

HunyuanOCR 整体遵循端到端范式,由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分组成。其最大优势是“高效省心”: 体积小、易部署,单次前向推理即可得到功能最优输出,效率显著优于业界常见级联方案。

性能方面,HunyuanOCR 表现出色。在复杂文档解析评测 OmniDocBench 中,以 94.1 分超越谷歌 Gemini3-Pro 等领先模型;在覆盖文档、手写、街景等 9 大场景的自建基准中,文字检测与识别能力显著领先同类开源与商业模型;在 OCRBench 榜单上,以 1B 参数拿下总参数 3B 以下模型 SOTA,总分 860。小语种翻译方面,支持 14 种常见小语种与中/英文互译,并夺得 ICDAR2025 端到端文档翻译比赛小模型赛道冠军。

在应用上,HunyuanOCR 能支持多语种复杂文档解析、票据字段 JSON 格式抽取、视频双语字幕自动提取等功能,已覆盖卡证处理、视频创作、跨境沟通等场景。当前,用户可通过 web 端、移动端链接或在 GitHub、Hugging Face 的开源地址下载体验,进入 Hugging Face 空间即可快速上手。
地址:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
https://github.com/Tencent-Hunyuan/HunyuanOCR


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?