法国人工智能初创公司

其中,最受关注的是名为 Voxtral Realtime 的实时转录模型。该模型拥有4B(40亿)参数规模,采用创新的流式架构。其核心亮点在于超快的响应速度:模型可在音频输入的瞬间同步转录,官方数据显示其转录延迟被压缩至200ms(0.2秒)以内。这意味着在实时对话或同声传译场景中,用户几乎感觉不到处理停顿。为了推动开发者生态,
另一款模型 Voxtral Mini Transcribe V2 则主打大批量处理与超高性价比。该模型专为长音频而设,单次请求即可支持最长3小时的录音文件。在准确率方面,Mistral 官方表示该模型已优于 GPT-4o mini Transcribe 和 Gemini2.5Flash。
在语言支持与成本上,两款新模型都具有很强的通用性,支持包括中文在内的13种主流语言。定价同样具有竞争力:离线批处理版 API 价格为每分钟0.003美元,而追求超快性能的实时版 API 价格为每分钟0.006美元。
划重点:
-
⚡ 极低延迟: Voxtral Realtime 模型将转录延迟压至200ms以内,支持音频即时转录,并已开放模型权重。
-
🏆 高性价比: Voxtral Mini 版在准确率上优于 GPT-4o mini 等同类产品,支持3小时超长录音,价格更有优势。
-
🌐 多语支持: 全系列模型原生支持中文等13种语言,广泛适配全球化的语音办公与实时交互场景。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?