新加坡国家AI项目“更换底座”:告别Meta Llama,转投阿里Qwen3-32B,开源Sea-Lion v4 登上东南亚语言榜首

新加坡国家人工智能计划AISG推出新一代大语言模型Qwen-Sea-Lion-v4,底座从Meta Llama全线切换到阿里巴巴“通义千问”Qwen3-32B,并在东南亚语言综合评测基准(Sea-Helm)上拿下<2000亿参数开源榜单第一名。

切换动因  

– 语言适配: Llama在印尼语、泰语、马来语等低资源语种上表现一般; Qwen3预训练覆盖119种语言/方言,包含36万亿token,原生多语设计降低后续训练门槛  

– 分词优化: 新模型不再使用西方常见的“句子分词器”,转用字节对编码(BPE),可在无空格的泰语、缅甸语中精确切分,翻译准确率与推理速度明显提升  

– 算力友好: 量化后可在32GB内存的消费级笔记本运行,贴合东南亚大量中小企业算力紧张的实际场景

训练数据  

AISG提供1000亿东南亚语料token,内容密度13%,为Llama2的26倍; 阿里通过“高级后训练”注入本地知识,使模型更懂新加坡式英语、马来式英语等混合用语。

性能结果  

Sea-Helm榜单显示,Qwen-Sea-Lion-v4在印尼语、越南语、泰语、马来语等任务上,相比原版Llama基线平均提升8.4%,文档级推理与跨语言摘要指标均位列第一

开源与落地  

模型已在Hugging Face与AISG官网免费开放下载,提供4/8位量化版本;新加坡政府已将其纳入2023年启动的总额7000万新元国家级多模态计划,预计到2026年将在教育、医疗、金融等场景大规模落地。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享