Meta AI发布“全语种”语音识别系统,一次支持1600+语言,跨越全球语言鸿沟!

【AI快讯】 Meta基础人工智能研究(FAIR)团队正式发布Omnilingual ASR,这是一套全新的自动语音识别系统,能够转录1600多种口语语言。该产品旨在填补现有AI在语言覆盖上的巨大缺口,向“通用转录系统”的目标更进一步。

长期以来,多数语音识别技术只覆盖少数拥有大量标注语音的主流语言,导致全球7000多种语言中,仍有大量语种无人问津。Omnilingual ASR的出现有望改变这种局面。Meta表示,在已支持的1600种语言里,有500种此前从未被任何AI系统覆盖

核心亮点:准确度与可扩展性兼顾

Omnilingual ASR在准确率与覆盖上表现突出:

  • 在测试覆盖的1600种语言中,系统对78%的语言实现了字符错误率低于“10”的水平

  • 对于“资源较多”的语言(训练音频不少于10小时),达到上述准确度门槛的覆盖率为95%

  • 即便是训练音频不足10小时的“低资源”语言,也有36%达到字符错误率低于“10”的标准,为这类语言带来可用的识别能力。

情境学习:覆盖潜力扩展到5400种语言

Omnilingual ASR的一大创新是“自带语言”功能,它借鉴大模型的情境学习思路。用户只需提供少量音频与文本的配对样本,系统即可从中直接学习新语言,无需重新训练或投入大量算力

Meta称,按此方法,Omnilingual ASR在理论上可将支持范围拓展到5400+种语言,远超行业现有水平。

开源生态与研究支持

为推动研究与落地,Meta同步推进开源:

  1. 模型开源: Omnilingual ASR以Apache2.0许可证发布,便于研究者与开发者自由使用、修改与商用。模型基于PyTorch的fairseq2框架构建,提供从适配低功耗设备的3亿参数版本,到追求“顶级”准确度的70亿参数版本。

  2. 数据集发布: 同步推出全语言自动语音识别语料库(Omnilingual ASR Corpus),覆盖350种代表性不足的语言,含大规模转录语音数据。该数据以**知识共享署名许可协议(CC-BY)**发布,帮助全球开发者按本地需求微调与优化语音识别模型。

Omnilingual ASR的发布,是打破全球语言壁垒的重要一步,也为语言公平与AI普惠提供了坚实助力。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享