12月6日至7日,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学顺利举行。会上,广州大学哲学社会科学重点实验室正式推出 AI-DimSum 粤语语料库平台,预示着粤语数字化建设进入全新阶段。
粤语是汉语中重要的一支,全球使用者超过亿人,但在互联网上长期被视为低资源。对此,广州大学网络空间安全学院教授齐佳音表示,AI-DimSum 围绕“数字中文建设”和粤港大湾区的文化数字化需求,目标是打造一个以岭南文化为底座、面向人工智能应用的多模态粤语语料数据生态。平台坚持“标准先行、数据可溯、服务可用”,为粤语学习与研究打下扎实基础。

图源说明:图像由AI生成,授权服务商为 Midjourney
AI-DimSum 包含七大子系统,涵盖语料采集、标注、模型对接、确权检索、质量评估、管理与应用商店等,构建起完整的数据处理闭环。从采集到发布,各环节可高效协同,全面推动粤语语料的建设与管理。
目前,AI-DimSum 粤语语料库已收集超100万字文本,覆盖新闻、文学、社交媒体等方向。同时,平台完成了3000小时高保真语音标注,并沉淀了超过1TB的音视频资源,包含《功夫熊猫》《小猪佩奇》等配有粤语字幕的热门动画与影视。平台还提供1万余句多用途的粤语生活场景音频与文本语料,并汇聚了共计10000张与岭南文化相关的图像素材。
此外,AI-DimSum 已搭建粤语安全语料库,收录6669条权威词条与30000条扩展词条,并整理出超过20万道粤语内容安全多模态评测题。上述资源不仅丰富了粤语学习与应用场景,也为后续粤语大模型的研发打下坚实基础。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?