延迟低于 0.2 秒！Mistral AI 推出 Voxtral Transcribe 2 语音模型，支持中文实时转录-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

延迟低于 0.2 秒！Mistral AI 推出 Voxtral Transcribe 2 语音模型，支持中文实时转录

拥抱AI，AIGC最佳实践者

577

法国人工智能初创公司Mistral AI近日发布全新的语音转文字模型系列——Voxtral Transcribe2。该系列包含两款面向不同使用场景优化的模型，目标是解决语音交互中的高延迟与成本问题。

其中，最受关注的是名为 Voxtral Realtime 的实时转录模型。该模型拥有4B（40亿）参数规模，采用创新的流式架构。其核心亮点在于超快的响应速度：模型可在音频输入的瞬间同步转录，官方数据显示其转录延迟被压缩至200ms（0.2秒）以内。这意味着在实时对话或同声传译场景中，用户几乎感觉不到处理停顿。为了推动开发者生态，Mistral AI已按 Apache2.0 协议正式开放该模型的权重。

另一款模型 Voxtral Mini Transcribe V2 则主打大批量处理与超高性价比。该模型专为长音频而设，单次请求即可支持最长3小时的录音文件。在准确率方面，Mistral 官方表示该模型已优于 GPT-4o mini Transcribe 和 Gemini2.5Flash。

在语言支持与成本上，两款新模型都具有很强的通用性，支持包括中文在内的13种主流语言。定价同样具有竞争力：离线批处理版 API 价格为每分钟0.003美元，而追求超快性能的实时版 API 价格为每分钟0.006美元。

划重点:

⚡ 极低延迟: Voxtral Realtime 模型将转录延迟压至200ms以内，支持音频即时转录，并已开放模型权重。
🏆 高性价比: Voxtral Mini 版在准确率上优于 GPT-4o mini 等同类产品，支持3小时超长录音，价格更有优势。
🌐 多语支持: 全系列模型原生支持中文等13种语言，广泛适配全球化的语音办公与实时交互场景。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐