新加坡超级应用公司 Grab 近日在工程博客分享了自研语言模型的打造历程,直言通用大模型在理解东南亚语言方面表现不尽如人意。Grab 的超级应用涵盖打车、外卖、购物与金融等服务,服务范围覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨、缅甸等国家与地区,而当地大量文档使用的并非拉丁字母体系。

图源备注:图片由AI生成
在处理合规事务(如客户身份核验)时,Grab 需要从身份证、驾照、注册证书等材料中准确提取关键信息。虽然团队尝试过多种 OCR 系统,但在面对五花八门的版式与模板时,效果并不稳定。
在2025年,Grab 开始探索能否借助大型语言模型来化解这一痛点。尽管一些强大的商业模型具备相关能力,但在东南亚语言上仍易出错且延迟较高;而开源的视觉大语言模型更省资源,却在准确率上不够理想。于是,Grab 决定自研视觉大型语言模型,通过对图像进行向量化,更高效地完成文本抽取。
Grab 选择阿里巴巴云的 Qwen2-VL2B 作为基座模型,因其体量适中、支持东南亚语言,并可灵活适配不同分辨率的图像。随后,团队从 Common Crawl 抽取东南亚语种内容,并自建合成数据流水线,在多种字体与背景下生成文本图像样本。借助低秩适配技术对 Qwen2-VL 进行微调后,模型在印尼语文档场景中取得了不错的效果。
尽管在泰语与越南语识别上仍面临挑战,Grab 最终选择进行全参数微调。通过训练让模型学习东南亚语言独有的视觉模式,团队打造出一款轻量级的视觉大型语言模型,其表现超越多种 OCR 工具与通用模型。Grab 表示,只要策略性地利用高质量数据,小而专的模型同样能够兼顾效率与效果。
接下来,Grab 计划继续推出更多自研模型,持续扩展文档处理技术能力。
划重点:
📊 Grab 发现通用大模型在东南亚语言识别上表现欠佳,转而自研模型对症下药。
🔍 自研的视觉大语言模型在身份证、驾照等证件信息提取上显著进步。
🚀 Grab 将持续迭代与扩展模型体系,以满足日益复杂的文档处理需求。
                    













用户38505528 1个月前0 
粘贴不了啊用户12648782 2个月前0 
用法杂不对呢?yfarer 2个月前0 
草稿id无法下载,是什么问题?