主打超低延迟!Mistral 发布两款全新语音转文字 AI 模型

法国 AI 厂商 Mistral AI 宣布上线两款全新语音转文字(Speech-to-Text)模型,目标是在转录速度、隐私保护与性价比上树立新的行业标杆。

此次登场的产品为 Voxtral Mini Transcribe V2Voxtral Realtime,同属 Voxtral Transcribe2 体系。这两款模型可提供一流的转写质量、说话人分离(Diarization)以及超低延迟,适用于虚拟助手、呼叫中心自动化与合规记录等多种业务场景。

image.png

核心产品亮点:

  • Voxtral Realtime(实时处理): 面向直播与实时音频,采用全新流式架构。延迟可设置到最短 200毫秒。在 480 毫秒的延迟下,错误率仅 1%-2%,几乎与离线转写精度相当。模型规模为 40 亿参数,可在手机或笔记本等本地设备运行,更好守护隐私。现已在 Hugging Face 以 Apache 2.0 协议开源,API 价格为 0.006 美元/分钟

  • Voxtral Mini Transcribe2(批量处理): 面向预录音频的离线转写。单次请求可支持最长 3 小时,并具备精准的说话人标注与时间戳。其在 FLEURS 词错率基准中表现优异,API 价格仅 0.003 美元/分钟,被 Mistral AI 称为当下市场性价比最优的转录方案。

两款模型原生支持包括中文、英语、法语、日语在内的 13 种语言。用户可前往 Mistral AI 的 Audio Playground 或 Le Chat 助手体验。

划重点:

  • 🚀 极限性能: 实时模型延迟低至 200ms,离线模型在词错率(WER)方面优势明显

  • 🔒 本地化部署: 4B 轻量参数设计可在本地设备运行,无需传至云端,隐私更安心。

  • 💰 高性价比: 批量转录 API 低至每分钟 0.003 美元,面向企业打造价格优势。

  • 🌍 多语言支持: 原生覆盖 13 种主流语言,满足大多数商业应用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享