微软发布 MAI-Transcribe-1:全球精度最高的语音转写模型

近日,微软发布了全新的语音转文字模型 MAI-Transcribe-1。在 25 种语言上的平均词错误率(WER)仅为 3.9%,被称为当前最精准的转写模型。这是微软自研 MAI 系列的第三款产品,此前已推出语音合成模型 MAI-Voice-1 与图像生成模型 MAI-Image-2。

image.png

据微软介绍,MAI-Transcribe-1 在行业标准基准 FLEURS 上表现优异,尤其在 25 种语言中的 11 种“核心语言”(如英语、法语、德语等)里,转写精度名列第一。在与 OpenAI 的 Whisper-large-v3 以及 Google 的 Gemini 3.1 Flash 的对比中,该模型同样展现出明显优势。

MAI-Transcribe-1 适合多语种的各类转写场景,如会议记录、媒体内容转写等。虽然当前版本暂不支持实时转写、说话人分离等高级功能,微软表示后续将逐步补齐。性能方面,新模型在批量任务中速度更快,批处理转写速度达到现有 Microsoft Azure Fast 产品的 2.5 倍。

此外,MAI-Transcribe-1 已通过 Microsoft Foundry 平台向企业和开发者开放,价格为每小时 0.36 美元。微软称其是目前云服务中性价比最高的语音转写模型之一。微软还宣布将 MAI-Image-2 与 MAI-Voice-1 引入 Foundry 平台,进一步强化在语音识别、语音合成与图像生成等多模态 AI 方向的自研能力,为开发者提供更高性能、更划算的解决方案。

划重点:

📊 MAI-Transcribe-1 在 25 种语言上的平均词错误率仅 3.9%,被视为全球最精准的转写模型。

🌍 在多语种的核心转写场景中表现突出,整体领先主要竞争对手。

💰 每小时 0.36 美元的定价,使其成为云服务市场中性价比最高的语音转写模型之一。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享