主打超低延迟！Mistral 发布两款全新语音转文字 AI 模型-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

主打超低延迟！Mistral 发布两款全新语音转文字 AI 模型

拥抱AI，AIGC最佳实践者

4313

法国 AI 厂商 Mistral AI 宣布上线两款全新语音转文字（Speech-to-Text）模型，目标是在转录速度、隐私保护与性价比上树立新的行业标杆。

此次登场的产品为 Voxtral Mini Transcribe V2 和 Voxtral Realtime，同属 Voxtral Transcribe2 体系。这两款模型可提供一流的转写质量、说话人分离（Diarization）以及超低延迟，适用于虚拟助手、呼叫中心自动化与合规记录等多种业务场景。

核心产品亮点:

Voxtral Realtime（实时处理）: 面向直播与实时音频，采用全新流式架构。延迟可设置到最短 200毫秒。在 480 毫秒的延迟下，错误率仅 1%-2%，几乎与离线转写精度相当。模型规模为 40 亿参数，可在手机或笔记本等本地设备运行，更好守护隐私。现已在 Hugging Face 以 Apache 2.0 协议开源，API 价格为 0.006 美元/分钟。
Voxtral Mini Transcribe2（批量处理）: 面向预录音频的离线转写。单次请求可支持最长 3 小时，并具备精准的说话人标注与时间戳。其在 FLEURS 词错率基准中表现优异，API 价格仅 0.003 美元/分钟，被 Mistral AI 称为当下市场性价比最优的转录方案。

两款模型原生支持包括中文、英语、法语、日语在内的 13 种语言。用户可前往 Mistral AI 的 Audio Playground 或 Le Chat 助手体验。

划重点:

🚀 极限性能: 实时模型延迟低至 200ms，离线模型在词错率（WER）方面优势明显。
🔒 本地化部署: 4B 轻量参数设计可在本地设备运行，无需传至云端，隐私更安心。
💰 高性价比: 批量转录 API 低至每分钟 0.003 美元，面向企业打造价格优势。
🌍 多语言支持: 原生覆盖 13 种主流语言，满足大多数商业应用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐