蚂蚁数科发布多语种视觉大模型训练框架,能高效识别文档伪造与逻辑冲突

近日,蚂蚁数科在香港金融科技节发布一项新技术——“多语种多模态大模型训练框架”,专门解决大模型在多语言场景的应用瓶颈。随着人工智能的迅速发展,大模型正不断提升各行业的效率。但许多以英文为主训练的模型在小语种环境中表现不稳定,常见语言混用和推理混乱的问题,影响了全球化落地。

QQ20251104-144314.png

为破解这一难题,蚂蚁数科研究团队打造了该训练框架,并在多文化多语言视觉问答基准(CVQA)中取得亮眼成绩。尤其在埃及阿拉伯语、印尼爪哇语、巴哈萨语、巽他语等低资源小语种上表现突出,展现强劲的多语言识别能力,综合排名位居前列。

这次提升的关键在于创新的语言感知优化框架。系统采用“以目标语言思考”的策略,结合更细粒度、跨维度的奖励机制与自动化数据方案,让模型能深度理解并处理小语种。测试显示,相比同规模的开源模型,该框架在主流多语言视觉问答(Multilingual Visual Question Answering,VQA)基准上准确率提升约9.5%;在部分任务中甚至超过 GPT-4o 与 Gemini-2.5-flash 等国际主流闭源模型,评测总分拿到第一

在安全能力方面,蚂蚁数科同步推出图像安全框架,结合视觉分析与常识推理的伪造识别流程,能够高效发现图片中的视觉不一致与逻辑冲突。该技术不仅可定位被篡改的区域,还能提供可解释分析,显著提升数字内容的风险管控能力。

目前,这两项核心能力已在蚂蚁数科的 ZOLOZ 文档识别鉴真产品(RealDoc)中实现规模化应用,支持 119 种语言,可高效处理多语种的商务文档、合同与证件,覆盖保险理赔、信贷审核及跨境贸易等多种场景。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享