Meta 发布全新 Omnilingual ASR 系统 覆盖1600种语言的语音识别

Meta 的基础 AI 团队(FAIR)近日上线一款名为 Omnilingual ASR 的自动语音识别系统,可把超过 1600 种语言的语音转成文本。过去,多数语音识别工具主要服务于少数资源充足的几百种语言,导致在全球 7000 多种语言中,仍有大量语言几乎得不到 AI 支持。

image.png

Omnilingual ASR 的目标就是补上这块短板。Meta 表示,在所支持的 1600 种语言里,有 500 种此前从未被任何 AI 系统覆盖。FAIR 希望借助这个系统,向“通用转录系统”迈进一步,帮助打破全球范围的语言壁垒。

系统的准确度依赖可获得的训练数据。根据 Meta 的说法,在测试的 1600 种语言中,有 78% 的语言字符错误率低于 10;在至少拥有 10 小时训练音频的语言里,95% 达到这一标准。即便是训练音频少于 10 小时的“低资源”语言,仍有 36% 的语言字符错误率低于 10。

为推进研究与实际落地,Meta 同步发布了 Omnilingual ASR 语料库,收录了 350 种欠代表性语言的带转录语音数据。这些数据以 CC-BY 许可开放,方便开发者与研究人员按本地化需求构建或微调语音识别模型。

Omnilingual ASR 的一大亮点是“自带语言”选项,采用上下文学习思路。用户只需提供少量“音频-文本”示例,系统即可直接从这些样本中学习,无需重新训练或大量算力。Meta 称,该方法理论上可把支持范围扩展到 5400 多种语言,远超当前行业水平。虽然在超低资源语言上,结果还达不到全面训练系统的水准,但这已为过去没有接触过语音识别技术的社区带来可用的解决方案。

Meta 将 Omnilingual ASR 以开源方式发布,使用 Apache 2.0 许可证。研究者与开发者可自由使用、修改并用于商业场景。模型系列覆盖从 3 亿参数的轻量版到 70 亿参数、顶尖准确度的版本。全部基于 FAIR 的 PyTorch 框架,官网也提供在线演示。

demo:https://aidemos.atmeta.com/omnilingualasr/language-globe

划重点:

🌍 Meta 推出 Omnilingual ASR,支持 1600+ 种语言的语音转写,填补多语言识别的空白。

📊 准确性与训练数据相关,多数语言字符错误率低于 10,低资源语言也有不俗表现。

📦 项目开源并配套数据集,便于开发者按本地需求构建或优化模型。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享