Grab 推出自研多模态语言模型，攻克东南亚语言识别难题-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

新加坡超级应用公司 Grab 近日在工程博客分享了自研语言模型的打造历程，直言通用大模型在理解东南亚语言方面表现不尽如人意。Grab 的超级应用涵盖打车、外卖、购物与金融等服务，服务范围覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨、缅甸等国家与地区，而当地大量文档使用的并非拉丁字母体系。

图源备注：图片由AI生成

在处理合规事务（如客户身份核验）时，Grab 需要从身份证、驾照、注册证书等材料中准确提取关键信息。虽然团队尝试过多种 OCR 系统，但在面对五花八门的版式与模板时，效果并不稳定。

在2025年，Grab 开始探索能否借助大型语言模型来化解这一痛点。尽管一些强大的商业模型具备相关能力，但在东南亚语言上仍易出错且延迟较高；而开源的视觉大语言模型更省资源，却在准确率上不够理想。于是，Grab 决定自研视觉大型语言模型，通过对图像进行向量化，更高效地完成文本抽取。

Grab 选择阿里巴巴云的 Qwen2-VL2B 作为基座模型，因其体量适中、支持东南亚语言，并可灵活适配不同分辨率的图像。随后，团队从 Common Crawl 抽取东南亚语种内容，并自建合成数据流水线，在多种字体与背景下生成文本图像样本。借助低秩适配技术对 Qwen2-VL 进行微调后，模型在印尼语文档场景中取得了不错的效果。

尽管在泰语与越南语识别上仍面临挑战，Grab 最终选择进行全参数微调。通过训练让模型学习东南亚语言独有的视觉模式，团队打造出一款轻量级的视觉大型语言模型，其表现超越多种 OCR 工具与通用模型。Grab 表示，只要策略性地利用高质量数据，小而专的模型同样能够兼顾效率与效果。

接下来，Grab 计划继续推出更多自研模型，持续扩展文档处理技术能力。