小米推出全链路语音大模型 MiMo‑V2.5：TTS 一句话定制新音色，ASR 开源支持方言与混说-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

当语音能力不止于“能听会说”，还能像导演一样细致掌控情感、语气乃至角色设定，人机交流的自然度正迎来跃升。小米今日发布MiMo‑V2.5 全链路语音模型系列，包含三款 TTS（语音合成）与一款开源 ASR（语音识别）模型，覆盖智能体时代的语音输入与输出，让声音变成可编排、可创作、可复刻的智能载体。

🎙️ 三款 TTS：让声音按你“调度”

此次推出的MiMo‑V2.5‑TTS 系列首次把“用语言控制声音”的生成方式落地：

MiMo‑V2.5‑TTS：内置多款高保真精品音色，支持用自然语言直接调节语速、情绪、语气等维度。无需填写参数，只需像给演员讲戏那样描述：“用温柔但坚定的语气，语速稍慢，带点疲惫”，模型即可准确呈现。
MiMo‑V2.5‑TTS‑VoiceDesign：一句话就能生成全新音色——输入“一个 30 岁知性女声，带轻微南方口音，适合播讲财经新闻”，系统即可创建专属声音，大幅降低音色设计门槛。
MiMo‑V2.5‑TTS‑VoiceClone：只需少量样本（如 30 秒语音）即可高保真还原目标人声，同时支持风格指令和音频标签，适合虚拟主播、个性化助理等场景。

更值得一提的是其分层“导演剧本”机制：在有声剧或游戏 NPC 等需要高一致性的场景下，可分别设定“角色身份”“场景氛围”“单句表演指导”，各层可独立调整又能协同产出，确保角色声音贯穿一致，每句台词仍富有变化。

同时，模型支持行内音频标签（如 [emotion: excited]），可在文本任意位置加入多种标签组合，实现复杂情绪编排；即使只输入纯文本，没有任何提示，模型也能结合标点、句式与隐含语气自动理解，生成更具表现力的语音。