12月6日至7日,第十届语言服务高级论坛在广州大学举办。会上,粤语语料库建设与大模型评测实验室正式发布自研的 AI-DimSum 多模态粤语语料库平台,这意味着在全球拥有上亿用户的粤语在数字化进程上迈入新阶段。
突破低资源困境 广州大学教授齐佳音表示,粤语在网络环境中仍属“低资源语言”。该平台围绕“数字中文建设”和“大湾区文化数字化”的需求,打造一个立足岭南文化、服务AI应用的多模态语料数据生态,遵循“标准先行、数据可溯、服务可用”的原则。

一体化、模块化基础设施 AI-DimSum平台包含语料采集、标注、大模型对接、确权检索、质量评估、管理与应用商店等七个子系统,打通从数据获取到模型接入与应用发布的一体化、模块化流程。
海量语料支撑 该语料库集成多种模态资源,为AI训练提供坚实底座:
-
文本: 超过100万字(覆盖新闻、文学等)。
-
音视频: 完成3000小时高保真语音标注,并汇聚1TB以上音视频素材。
-
影视: 包含《功夫熊猫》《大圣归来》《外来媳妇本地郎》等附有粤语字幕与标注的作品。
-
评测: 构建超过20万道粤语大模型内容安全多模态评测题。
该平台的发布将显著提升粤语在大模型时代的应用能力与文化传承价值。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?