新加坡国家人工智能计划AISG推出新一代大语言模型Qwen-Sea-Lion-v4,底座从Meta Llama全线切换到阿里巴巴“通义千问”Qwen3-32B,并在东南亚语言综合评测基准(Sea-Helm)上拿下<2000亿参数开源榜单第一名。
切换动因
– 语言适配: Llama在印尼语、泰语、马来语等低资源语种上表现一般; Qwen3预训练覆盖119种语言/方言,包含36万亿token,原生多语设计降低后续训练门槛
– 分词优化: 新模型不再使用西方常见的“句子分词器”,转用字节对编码(BPE),可在无空格的泰语、缅甸语中精确切分,翻译准确率与推理速度明显提升
– 算力友好: 量化后可在32GB内存的消费级笔记本运行,贴合东南亚大量中小企业算力紧张的实际场景
训练数据
AISG提供1000亿东南亚语料token,内容密度13%,为Llama2的26倍; 阿里通过“高级后训练”注入本地知识,使模型更懂新加坡式英语、马来式英语等混合用语。
性能结果
Sea-Helm榜单显示,Qwen-Sea-Lion-v4在印尼语、越南语、泰语、马来语等任务上,相比原版Llama基线平均提升8.4%,文档级推理与跨语言摘要指标均位列第一。
开源与落地
模型已在Hugging Face与AISG官网免费开放下载,提供4/8位量化版本;新加坡政府已将其纳入2023年启动的总额7000万新元国家级多模态计划,预计到2026年将在教育、医疗、金融等场景大规模落地。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?