法国 AI 厂商 Mistral AI 宣布上线两款全新语音转文字(Speech-to-Text)模型,目标是在转录速度、隐私保护与性价比上树立新的行业标杆。
此次登场的产品为 Voxtral Mini Transcribe V2 和 Voxtral Realtime,同属 Voxtral Transcribe2 体系。这两款模型可提供一流的转写质量、说话人分离(Diarization)以及超低延迟,适用于虚拟助手、呼叫中心自动化与合规记录等多种业务场景。

核心产品亮点:
-
Voxtral Realtime(实时处理): 面向直播与实时音频,采用全新流式架构。延迟可设置到最短 200毫秒。在 480 毫秒的延迟下,错误率仅 1%-2%,几乎与离线转写精度相当。模型规模为 40 亿参数,可在手机或笔记本等本地设备运行,更好守护隐私。现已在 Hugging Face 以 Apache 2.0 协议开源,API 价格为 0.006 美元/分钟。
-
Voxtral Mini Transcribe2(批量处理): 面向预录音频的离线转写。单次请求可支持最长 3 小时,并具备精准的说话人标注与时间戳。其在 FLEURS 词错率基准中表现优异,API 价格仅 0.003 美元/分钟,被 Mistral AI 称为当下市场性价比最优的转录方案。
两款模型原生支持包括中文、英语、法语、日语在内的 13 种语言。用户可前往 Mistral AI 的 Audio Playground 或 Le Chat 助手体验。
划重点:
-
🚀 极限性能: 实时模型延迟低至 200ms,离线模型在词错率(WER)方面优势明显。
-
🔒 本地化部署: 4B 轻量参数设计可在本地设备运行,无需传至云端,隐私更安心。
-
💰 高性价比: 批量转录 API 低至每分钟 0.003 美元,面向企业打造价格优势。
-
🌍 多语言支持: 原生覆盖 13 种主流语言,满足大多数商业应用。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?