腾讯推出 HunyuanOCR 开源模型,1B 参数拿下多项 SOTA

近日,腾讯正式发布开源模型 HunyuanOCR,参数规模仅为 1B。该模型基于腾讯自研的混元多模态架构,在多项主流 OCR 基准上取得了 SOTA(最先进水平)成绩。腾讯表示,HunyuanOCR 采用“端到端”设计,一次前向推理即可快速获得最优结果。

image.png

HunyuanOCR 主要由三大核心组件构成:原生分辨率视频编码器、自适应视觉适配器、轻量化混元语言模型。不同于市面上常见的 OCR 模型,Hunyuan 采用端到端的训练与推理方式,并结合大规模应用导向数据与在线强化学习,展现出强大的推理能力。

在复杂文档解析评测中,HunyuanOCR 以 94.1 的高分超越了包括谷歌 Gemini3-pro 在内的多款领先模型。其文字检测与识别表现同样出色,覆盖文档、艺术字、街景、手写、广告、票据等多种场景。相较于其他开源与商业 OCR 模型,该模型成绩更优,在相关 OCR 榜单中总分达到 860 分,位列总参数 3B 以下模型的前列。

HunyuanOCR 还支持 14 种语种的翻译功能,在翻译任务中表现亮眼。面向复杂文档电子化处理,该模型可将扫描件或拍摄图中的文本按阅读顺序组织,并能够用 LaTeX 表示公式、用 HTML 表示复杂表格。

应用层面,HunyuanOCR 适用于多语种文档解析、票据字段抽取、视频字幕识别与拍照翻译等任务,展现出广泛的落地潜力。

github:https://github.com/Tencent-Hunyuan/HunyuanOCR

划重点:  

🔍 HunyuanOCR 仅 1B 参数,端到端架构拿下多项 SOTA。  

📄 支持复杂文档解析、文本检测与识别,覆盖多类应用场景。  

🌐 支持 14 种小语种翻译,特别适合拍照翻译功能。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享