Google 发布非洲语音数据集 WAXAL,推动非洲掌握 AI 数据主导权

Google 近日在非洲推出名为 WAXAL 的全新语音数据集。该项目覆盖阿乔利语、豪萨语、卢干达语、约鲁巴语等 21 种非洲语言,目标是解决长期以来非洲语言在 AI 系统中识别率低、错误多的“生存性难题”。

项目的关键亮点包括:

  • 数据主权回归:不同于过去由大型公司掌控数据的做法,WAXAL 的数据所有权完全归属参与建设的非洲本地机构,而不是 Google。

  • 规模大且专业:数据集收录超过 1.1 万小时 的语音与近 200 万条 录音;其中约有 1250 小时带转写语音,并提供适用于文本转语音(TTS)的高保真音频。

  • 助力本地创新:项目以宽松许可开源,支持商业使用。目前,加纳大学等机构已基于这些数据推进孕产妇健康等本地化 AI 应用研究。

尽管仍面临语种繁多、声调符号缺失等技术挑战,WAXAL 的发布意味着非洲正从单纯的数据采集者转向技术基础设施的拥有者。Google 计划后续将语种扩展至 27 种,进一步提升非洲在 AI 领域的话语权。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享