Google 近日在非洲推出名为 WAXAL 的全新语音数据集。该项目覆盖阿乔利语、豪萨语、卢干达语、约鲁巴语等 21 种非洲语言,目标是解决长期以来非洲语言在 AI 系统中识别率低、错误多的“生存性难题”。
项目的关键亮点包括:
-
数据主权回归:不同于过去由大型公司掌控数据的做法,WAXAL 的数据所有权完全归属参与建设的非洲本地机构,而不是 Google。
-
规模大且专业:数据集收录超过 1.1 万小时 的语音与近 200 万条 录音;其中约有 1250 小时带转写语音,并提供适用于文本转语音(TTS)的高保真音频。
-
助力本地创新:项目以宽松许可开源,支持商业使用。目前,加纳大学等机构已基于这些数据推进孕产妇健康等本地化 AI 应用研究。
尽管仍面临语种繁多、声调符号缺失等技术挑战,WAXAL 的发布意味着非洲正从单纯的数据采集者转向技术基础设施的拥有者。Google 计划后续将语种扩展至 27 种,进一步提升非洲在 AI 领域的话语权。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?