最近,Mistral AI 发布了 Voxtral 系列,把文本与音频处理能力融合在一起,一套模型即可覆盖多种应用场景。该系列包含两款模型:Voxtral-Mini-3B-2507 和 Voxtral-Small-24B-2507。前者是优化过的 3亿 参数模型,适用于快速语音转写与基础多模态理解;后者拥有 240亿 参数,支持更复杂的音频-文本智能与多语言任务,非常适合企业级应用。

两款模型都支持 30–40 分钟的长音频上下文,具备自动语言检测能力,并可处理最多 32,000 个标记。它们以 Apache 2.0 许可证发布,兼容商业与科研项目,拥有高效的多模态智能处理能力,能在同一流程中打通口语与书面交流。
本文演示如何通过 vLLM 与“自带容器(BYOC)”方式,在亚马逊 SageMaker 的 AI 端点托管 Voxtral 模型。vLLM 是一款高性能库,更擅长管理大语言模型的内存,并支持跨多张 GPU 的张量并行。SageMaker 的 BYOC 功能允许使用自定义容器镜像进行部署,为模型优化与版本控制提供更高灵活性。
整个部署流程以 SageMaker 笔记本环境为中心,负责构建并推送自定义 Docker 镜像至亚马逊弹性容器注册中心(ECR),同时管理模型配置与部署工作流。另有亚马逊 S3 用于存储 Voxtral 所需的关键文件,从而实现配置与容器镜像的模块化分离。
该方案支持多种场景,包括仅文本的传统对话式 AI、精准的音频文件转录,以及结合音频与文本智能的复杂多模态应用。用户只需调整配置,即可在 Voxtral-Mini 与 Voxtral-Small 间无缝切换。借助这些多模态能力,Voxtral 能为用户提供更灵活、更高效的音频与文本处理服务。
划重点:
📌 Voxtral 将文本与音频能力合一,覆盖多种应用场景。
🔧 亚马逊 SageMaker 支持自定义容器托管 Voxtral,部署更灵活。
💡 适用用例广泛:文本处理、音频转写以及复杂多模态应用。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?