粤语数字化迎来里程碑,广州大学推出 AI-DimSum 多模态语料库平台

12月6日至7日,第十届语言服务高级论坛在广州大学举办。会上,粤语语料库建设与大模型评测实验室正式发布自研的 AI-DimSum 多模态粤语语料库平台,这意味着在全球拥有上亿用户的粤语在数字化进程上迈入新阶段。

突破低资源困境 广州大学教授齐佳音表示,粤语在网络环境中仍属“低资源语言”。该平台围绕“数字中文建设”和“大湾区文化数字化”的需求,打造一个立足岭南文化、服务AI应用的多模态语料数据生态,遵循“标准先行、数据可溯、服务可用”的原则。

虚拟偶像 虚拟主播 虚拟人 演唱2 AI绘画

一体化、模块化基础设施 AI-DimSum平台包含语料采集、标注、大模型对接、确权检索、质量评估、管理与应用商店等七个子系统,打通从数据获取到模型接入与应用发布的一体化、模块化流程。

海量语料支撑 该语料库集成多种模态资源,为AI训练提供坚实底座:

  • 文本: 超过100万字(覆盖新闻、文学等)。

  • 音视频: 完成3000小时高保真语音标注,并汇聚1TB以上音视频素材。

  • 影视: 包含《功夫熊猫》《大圣归来》《外来媳妇本地郎》等附有粤语字幕与标注的作品。

  • 评测: 构建超过20万道粤语大模型内容安全多模态评测题。

该平台的发布将显著提升粤语在大模型时代的应用能力与文化传承价值。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享