Mistral AI Voxtral 模型现可在 Amazon SageMaker 部署-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

最近，Mistral AI 推出 Voxtral 系列模型，把文本与音频处理整合在一起，能够覆盖多种应用场景。该系列包含两款模型：Voxtral-Mini-3B-2507 和 Voxtral-Small-24B-2507。前者是一款优化过的 3 亿参数模型，适合快速语音转写和基础多模态理解；后者拥有 240 亿参数，支持更复杂的音频-文本智能与多语言处理，非常适合企业级使用。

两款模型均可处理长达 30 至 40 分钟的音频上下文，具备自动语言检测功能，并支持最多 32,000 个标记。它们以 Apache 2.0 许可证发布，适合商业与研究项目，拥有高效的多模态处理能力，可在同一流程中同时理解口语与书面内容。

本文演示如何通过 vLLM 与“自带容器（BYOC）”的方式，在 Amazon SageMaker 端点上托管 Voxtral 模型。vLLM 是一款高性能库，能够更好地管理大模型的内存，并支持跨多块 GPU 的张量并行。SageMaker 的 BYOC 功能允许使用自定义容器镜像进行部署，让模型优化与版本控制更加灵活。

整个部署流程以 SageMaker 笔记本环境为核心控制点，负责构建并推送自定义 Docker 镜像到 Amazon 弹性容器注册中心（ECR），同时管理模型的配置与部署工作流。另有 Amazon S3 用于存放 Voxtral 所需的关键文件，实现配置与容器镜像的模块化分离。

该方案适配多种用例：仅文本的传统对话式 AI、精准的音频文件转写，以及音频与文本结合的复杂多模态应用。用户只需更新配置，即可在 Voxtral-Mini 与 Voxtral-Small 之间无缝切换。借助这些多模态能力，Voxtral 能为音频与文本处理提供更灵活、更高效的服务。