Meta 的基础 AI 团队(FAIR)近日上线一款名为 Omnilingual ASR 的自动语音识别系统,可把超过 1600 种语言的语音转成文本。过去,多数语音识别工具主要服务于少数资源充足的几百种语言,导致在全球 7000 多种语言中,仍有大量语言几乎得不到 AI 支持。

Omnilingual ASR 的目标就是补上这块短板。Meta 表示,在所支持的 1600 种语言里,有 500 种此前从未被任何 AI 系统覆盖。FAIR 希望借助这个系统,向“通用转录系统”迈进一步,帮助打破全球范围的语言壁垒。
系统的准确度依赖可获得的训练数据。根据 Meta 的说法,在测试的 1600 种语言中,有 78% 的语言字符错误率低于 10;在至少拥有 10 小时训练音频的语言里,95% 达到这一标准。即便是训练音频少于 10 小时的“低资源”语言,仍有 36% 的语言字符错误率低于 10。
为推进研究与实际落地,Meta 同步发布了 Omnilingual ASR 语料库,收录了 350 种欠代表性语言的带转录语音数据。这些数据以 CC-BY 许可开放,方便开发者与研究人员按本地化需求构建或微调语音识别模型。
Omnilingual ASR 的一大亮点是“自带语言”选项,采用上下文学习思路。用户只需提供少量“音频-文本”示例,系统即可直接从这些样本中学习,无需重新训练或大量算力。Meta 称,该方法理论上可把支持范围扩展到 5400 多种语言,远超当前行业水平。虽然在超低资源语言上,结果还达不到全面训练系统的水准,但这已为过去没有接触过语音识别技术的社区带来可用的解决方案。
Meta 将 Omnilingual ASR 以开源方式发布,使用 Apache 2.0 许可证。研究者与开发者可自由使用、修改并用于商业场景。模型系列覆盖从 3 亿参数的轻量版到 70 亿参数、顶尖准确度的版本。全部基于 FAIR 的 PyTorch 框架,官网也提供在线演示。
demo:https://aidemos.atmeta.com/omnilingualasr/language-globe
划重点:
🌍 Meta 推出 Omnilingual ASR,支持 1600+ 种语言的语音转写,填补多语言识别的空白。
📊 准确性与训练数据相关,多数语言字符错误率低于 10,低资源语言也有不俗表现。
📦 项目开源并配套数据集,便于开发者按本地需求构建或优化模型。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?