小米推出全链路语音大模型 MiMo‑V2.5:TTS 一句话定制新音色,ASR 开源支持方言与混说

当语音能力不止于“能听会说”,还能像导演一样细致掌控情感、语气乃至角色设定,人机交流的自然度正迎来跃升。小米今日发布MiMo‑V2.5 全链路语音模型系列,包含三款 TTS(语音合成)与一款开源 ASR(语音识别)模型,覆盖智能体时代的语音输入与输出,让声音变成可编排、可创作、可复刻的智能载体。

image.png

🎙️ 三款 TTS:让声音按你“调度”

此次推出的MiMo‑V2.5‑TTS 系列首次把“用语言控制声音”的生成方式落地:

  • MiMo‑V2.5‑TTS:内置多款高保真精品音色,支持用自然语言直接调节语速、情绪、语气等维度。无需填写参数,只需像给演员讲戏那样描述:“用温柔但坚定的语气,语速稍慢,带点疲惫”,模型即可准确呈现。

  • MiMo‑V2.5‑TTS‑VoiceDesign一句话就能生成全新音色——输入“一个 30 岁知性女声,带轻微南方口音,适合播讲财经新闻”,系统即可创建专属声音,大幅降低音色设计门槛。

  • MiMo‑V2.5‑TTS‑VoiceClone:只需少量样本(如 30 秒语音)即可高保真还原目标人声,同时支持风格指令和音频标签,适合虚拟主播、个性化助理等场景。

更值得一提的是其分层“导演剧本”机制:在有声剧或游戏 NPC 等需要高一致性的场景下,可分别设定“角色身份”“场景氛围”“单句表演指导”,各层可独立调整又能协同产出,确保角色声音贯穿一致,每句台词仍富有变化。

同时,模型支持行内音频标签(如 [emotion: excited]),可在文本任意位置加入多种标签组合,实现复杂情绪编排;即使只输入纯文本,没有任何提示,模型也能结合标点、句式与隐含语气自动理解,生成更具表现力的语音。

🎧 ASR 开源:嘈杂环境里的“全能耳朵”

同步开源的MiMo‑V2.5‑ASR聚焦“听得清、听得准”:

  • 支持吴语、粤语、闽南语、四川话等主流中文方言
  • 中英混说(Code‑Switch)场景下无需预先设置语种,识别顺畅;
  • 应对强噪声、远距拾音、多人交谈(如会议)等复杂场景依然稳定;
  • 能够精准识别古诗词、专业术语、歌曲歌词(含伴奏干扰);
  • 原生输出标点,转写结果可直接用于下游任务,无需额外处理。

在多项权威评测中,该模型在中英文通用、方言、混说与歌词识别等方面均达到行业领先水平。

🚀 免费开放 + 开源,加速 Agent 生态落地

目前,三款 TTS 模型已在小米 MiMo 开放平台限时免费,开发者可通过 API 或 MiMo Studio 快速上手;同时,MiMo‑V2.5‑ASR 的模型权重与代码已全面开源,便于社区二次开发。

这一全栈语音能力的释放,意味着小米正从终端厂商延伸为 AI 基础设施提供者。让每位开发者都能以更低成本打造具备“导演级语音表现力”的智能体,下一代人机交互的可能性才真正被打开——未来,你的 AI 助手不只听懂你的话,更能用你想要的声音,说出更打动人心的回答。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享