【AI快讯】 Meta基础人工智能研究(FAIR)团队正式发布Omnilingual ASR,这是一套全新的自动语音识别系统,能够转录1600多种口语语言。该产品旨在填补现有AI在语言覆盖上的巨大缺口,向“通用转录系统”的目标更进一步。
长期以来,多数语音识别技术只覆盖少数拥有大量标注语音的主流语言,导致全球7000多种语言中,仍有大量语种无人问津。Omnilingual ASR的出现有望改变这种局面。Meta表示,在已支持的1600种语言里,有500种此前从未被任何AI系统覆盖。
核心亮点:准确度与可扩展性兼顾
Omnilingual ASR在准确率与覆盖上表现突出:
-
在测试覆盖的1600种语言中,系统对78%的语言实现了字符错误率低于“10”的水平。
-
对于“资源较多”的语言(训练音频不少于10小时),达到上述准确度门槛的覆盖率为95%。
-
即便是训练音频不足10小时的“低资源”语言,也有36%达到字符错误率低于“10”的标准,为这类语言带来可用的识别能力。
情境学习:覆盖潜力扩展到5400种语言
Omnilingual ASR的一大创新是“自带语言”功能,它借鉴大模型的情境学习思路。用户只需提供少量音频与文本的配对样本,系统即可从中直接学习新语言,无需重新训练或投入大量算力。
Meta称,按此方法,Omnilingual ASR在理论上可将支持范围拓展到5400+种语言,远超行业现有水平。
开源生态与研究支持
为推动研究与落地,Meta同步推进开源:
-
模型开源: Omnilingual ASR以Apache2.0许可证发布,便于研究者与开发者自由使用、修改与商用。模型基于PyTorch的fairseq2框架构建,提供从适配低功耗设备的3亿参数版本,到追求“顶级”准确度的70亿参数版本。
-
数据集发布: 同步推出全语言自动语音识别语料库(Omnilingual ASR Corpus),覆盖350种代表性不足的语言,含大规模转录语音数据。该数据以**知识共享署名许可协议(CC-BY)**发布,帮助全球开发者按本地需求微调与优化语音识别模型。
Omnilingual ASR的发布,是打破全球语言壁垒的重要一步,也为语言公平与AI普惠提供了坚实助力。

















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?