近日,腾讯正式发布开源模型 HunyuanOCR,参数规模仅为 1B。该模型基于腾讯自研的混元多模态架构,在多项主流 OCR 基准上取得了 SOTA(最先进水平)成绩。腾讯表示,HunyuanOCR 采用“端到端”设计,一次前向推理即可快速获得最优结果。

HunyuanOCR 主要由三大核心组件构成:原生分辨率视频编码器、自适应视觉适配器、轻量化混元语言模型。不同于市面上常见的 OCR 模型,Hunyuan 采用端到端的训练与推理方式,并结合大规模应用导向数据与在线强化学习,展现出强大的推理能力。
在复杂文档解析评测中,HunyuanOCR 以 94.1 的高分超越了包括谷歌 Gemini3-pro 在内的多款领先模型。其文字检测与识别表现同样出色,覆盖文档、艺术字、街景、手写、广告、票据等多种场景。相较于其他开源与商业 OCR 模型,该模型成绩更优,在相关 OCR 榜单中总分达到 860 分,位列总参数 3B 以下模型的前列。
HunyuanOCR 还支持 14 种语种的翻译功能,在翻译任务中表现亮眼。面向复杂文档电子化处理,该模型可将扫描件或拍摄图中的文本按阅读顺序组织,并能够用 LaTeX 表示公式、用 HTML 表示复杂表格。
应用层面,HunyuanOCR 适用于多语种文档解析、票据字段抽取、视频字幕识别与拍照翻译等任务,展现出广泛的落地潜力。
github:https://github.com/Tencent-Hunyuan/HunyuanOCR
划重点:
🔍 HunyuanOCR 仅 1B 参数,端到端架构拿下多项 SOTA。
📄 支持复杂文档解析、文本检测与识别,覆盖多类应用场景。
🌐 支持 14 种小语种翻译,特别适合拍照翻译功能。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?