蚂蚁数科推出多语种视觉大模型训练框架,跨越语言边界!

在香港金融科技节上,蚂蚁数科发布了一项突破性技术——“多语种多模态大模型训练框架”,旨在解决当前大模型在多语言环境中的应用难题。该框架重点针对资源稀缺的小语种,如埃及阿拉伯语、印尼爪哇语、巴哈萨语和巽他语,展现出显著潜力。

这项技术的核心是语言感知优化框架。通过“以目标语言进行思考”的机制,配合细粒度、多维度的奖励策略与自动化数据方案,显著增强了对小语种的理解与处理能力。测试结果显示,在主流多语言视觉问答(Multilingual Visual Question Answering,VQA)基准中,相比同规模开源模型,准确率提升约 9.5%。在部分任务上,表现甚至超过 GPT-4o 和 Gemini-2.5-flash,在评测总分中位列第一

除语言模型外,蚂蚁数科还推出了图像安全框架。该技术融合视觉分析与常识推理,可高效识别图像中的伪造与不一致,既能精准定位被篡改区域,也能给出可解释的分析,明显提升数字内容的风险控制能力,为多场景的数字内容保护提供更有力支撑。

作为蚂蚁数科全球业务的核心技术,这两项能力已在 ZOLOZ 的文档识别鉴真产品(RealDoc)中广泛应用,支持 119 种语言,可高效处理多类商务文档、合同与证件,覆盖保险理赔、信贷审核及跨境贸易等场景。不仅体现了蚂蚁数科在多语言处理方面的领先实力,也为全球用户带来更佳的服务体验。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享