Grab 推出自研多模态语言模型,攻克东南亚语言识别难题

新加坡超级应用公司 Grab 近日在工程博客分享了自研语言模型的打造历程,直言通用大模型在理解东南亚语言方面表现不尽如人意。Grab 的超级应用涵盖打车、外卖、购物与金融等服务,服务范围覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨、缅甸等国家与地区,而当地大量文档使用的并非拉丁字母体系。

AI机器人玩游戏

图源备注:图片由AI生成

在处理合规事务(如客户身份核验)时,Grab 需要从身份证、驾照、注册证书等材料中准确提取关键信息。虽然团队尝试过多种 OCR 系统,但在面对五花八门的版式与模板时,效果并不稳定。

在2025年,Grab 开始探索能否借助大型语言模型来化解这一痛点。尽管一些强大的商业模型具备相关能力,但在东南亚语言上仍易出错且延迟较高;而开源的视觉大语言模型更省资源,却在准确率上不够理想。于是,Grab 决定自研视觉大型语言模型,通过对图像进行向量化,更高效地完成文本抽取。

Grab 选择阿里巴巴云的 Qwen2-VL2B 作为基座模型,因其体量适中、支持东南亚语言,并可灵活适配不同分辨率的图像。随后,团队从 Common Crawl 抽取东南亚语种内容,并自建合成数据流水线,在多种字体与背景下生成文本图像样本。借助低秩适配技术对 Qwen2-VL 进行微调后,模型在印尼语文档场景中取得了不错的效果。

尽管在泰语与越南语识别上仍面临挑战,Grab 最终选择进行全参数微调。通过训练让模型学习东南亚语言独有的视觉模式,团队打造出一款轻量级的视觉大型语言模型,其表现超越多种 OCR 工具与通用模型。Grab 表示,只要策略性地利用高质量数据,小而专的模型同样能够兼顾效率与效果。

接下来,Grab 计划继续推出更多自研模型,持续扩展文档处理技术能力。

划重点:

📊 Grab 发现通用大模型在东南亚语言识别上表现欠佳,转而自研模型对症下药。  

🔍 自研的视觉大语言模型在身份证、驾照等证件信息提取上显著进步。  

🚀 Grab 将持续迭代与扩展模型体系,以满足日益复杂的文档处理需求。  

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享