延迟低于 0.2 秒!Mistral AI 推出 Voxtral Transcribe 2 语音模型,支持中文实时转录

法国人工智能初创公司Mistral AI近日发布全新的语音转文字模型系列——Voxtral Transcribe2。该系列包含两款面向不同使用场景优化的模型,目标是解决语音交互中的高延迟与成本问题。

image.png

其中,最受关注的是名为 Voxtral Realtime 的实时转录模型。该模型拥有4B(40亿)参数规模,采用创新的流式架构。其核心亮点在于超快的响应速度:模型可在音频输入的瞬间同步转录,官方数据显示其转录延迟被压缩至200ms(0.2秒)以内。这意味着在实时对话或同声传译场景中,用户几乎感觉不到处理停顿。为了推动开发者生态,Mistral AI已按 Apache2.0 协议正式开放该模型的权重。

另一款模型 Voxtral Mini Transcribe V2 则主打大批量处理与超高性价比。该模型专为长音频而设,单次请求即可支持最长3小时的录音文件。在准确率方面,Mistral 官方表示该模型已优于 GPT-4o mini Transcribe 和 Gemini2.5Flash。

在语言支持与成本上,两款新模型都具有很强的通用性,支持包括中文在内的13种主流语言。定价同样具有竞争力:离线批处理版 API 价格为每分钟0.003美元,而追求超快性能的实时版 API 价格为每分钟0.006美元。

划重点:

  • 极低延迟: Voxtral Realtime 模型将转录延迟压至200ms以内,支持音频即时转录,并已开放模型权重。

  • 🏆 高性价比: Voxtral Mini 版在准确率上优于 GPT-4o mini 等同类产品,支持3小时超长录音,价格更有优势。

  • 🌐 多语支持: 全系列模型原生支持中文等13种语言,广泛适配全球化的语音办公与实时交互场景。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享