蚂蚁数科推出多语种视觉大模型训练框架，跨越语言边界！-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在香港金融科技节上，蚂蚁数科发布了一项突破性技术——“多语种多模态大模型训练框架”，旨在解决当前大模型在多语言环境中的应用难题。该框架重点针对资源稀缺的小语种，如埃及阿拉伯语、印尼爪哇语、巴哈萨语和巽他语，展现出显著潜力。

这项技术的核心是语言感知优化框架。通过“以目标语言进行思考”的机制，配合细粒度、多维度的奖励策略与自动化数据方案，显著增强了对小语种的理解与处理能力。测试结果显示，在主流多语言视觉问答（Multilingual Visual Question Answering，VQA）基准中，相比同规模开源模型，准确率提升约 9.5%。在部分任务上，表现甚至超过 GPT-4o 和 Gemini-2.5-flash，在评测总分中位列第一。

除语言模型外，蚂蚁数科还推出了图像安全框架。该技术融合视觉分析与常识推理，可高效识别图像中的伪造与不一致，既能精准定位被篡改区域，也能给出可解释的分析，明显提升数字内容的风险控制能力，为多场景的数字内容保护提供更有力支撑。

作为蚂蚁数科全球业务的核心技术，这两项能力已在 ZOLOZ 的文档识别鉴真产品（RealDoc）中广泛应用，支持 119 种语言，可高效处理多类商务文档、合同与证件，覆盖保险理赔、信贷审核及跨境贸易等场景。不仅体现了蚂蚁数科在多语言处理方面的领先实力，也为全球用户带来更佳的服务体验。