Meta AI发布“全语种”语音识别系统，一次支持1600+语言，跨越全球语言鸿沟!-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

【AI快讯】 Meta基础人工智能研究（FAIR）团队正式发布Omnilingual ASR，这是一套全新的自动语音识别系统，能够转录1600多种口语语言。该产品旨在填补现有AI在语言覆盖上的巨大缺口，向“通用转录系统”的目标更进一步。

长期以来，多数语音识别技术只覆盖少数拥有大量标注语音的主流语言，导致全球7000多种语言中，仍有大量语种无人问津。Omnilingual ASR的出现有望改变这种局面。Meta表示，在已支持的1600种语言里，有500种此前从未被任何AI系统覆盖。

Omnilingual ASR在准确率与覆盖上表现突出：

Omnilingual ASR的一大创新是“自带语言”功能，它借鉴大模型的情境学习思路。用户只需提供少量音频与文本的配对样本，系统即可从中直接学习新语言，无需重新训练或投入大量算力。

Meta称，按此方法，Omnilingual ASR在理论上可将支持范围拓展到5400+种语言，远超行业现有水平。

为推动研究与落地，Meta同步推进开源：

模型开源： Omnilingual ASR以Apache2.0许可证发布，便于研究者与开发者自由使用、修改与商用。模型基于PyTorch的fairseq2框架构建，提供从适配低功耗设备的3亿参数版本，到追求“顶级”准确度的70亿参数版本。
数据集发布： 同步推出全语言自动语音识别语料库（Omnilingual ASR Corpus），覆盖350种代表性不足的语言，含大规模转录语音数据。该数据以**知识共享署名许可协议（CC-BY）**发布，帮助全球开发者按本地需求微调与优化语音识别模型。

Omnilingual ASR的发布，是打破全球语言壁垒的重要一步，也为语言公平与AI普惠提供了坚实助力。