当语音能力不止于“能听会说”,还能像导演一样细致掌控情感、语气乃至角色设定,人机交流的自然度正迎来跃升。小米今日发布MiMo‑V2.5 全链路语音模型系列,包含三款 TTS(语音合成)与一款开源 ASR(语音识别)模型,覆盖智能体时代的语音输入与输出,让声音变成可编排、可创作、可复刻的智能载体。

🎙️ 三款 TTS:让声音按你“调度”
此次推出的MiMo‑V2.5‑TTS 系列首次把“用语言控制声音”的生成方式落地:
-
MiMo‑V2.5‑TTS:内置多款高保真精品音色,支持用自然语言直接调节语速、情绪、语气等维度。无需填写参数,只需像给演员讲戏那样描述:“用温柔但坚定的语气,语速稍慢,带点疲惫”,模型即可准确呈现。
-
MiMo‑V2.5‑TTS‑VoiceDesign:一句话就能生成全新音色——输入“一个 30 岁知性女声,带轻微南方口音,适合播讲财经新闻”,系统即可创建专属声音,大幅降低音色设计门槛。
-
MiMo‑V2.5‑TTS‑VoiceClone:只需少量样本(如 30 秒语音)即可高保真还原目标人声,同时支持风格指令和音频标签,适合虚拟主播、个性化助理等场景。
更值得一提的是其分层“导演剧本”机制:在有声剧或游戏 NPC 等需要高一致性的场景下,可分别设定“角色身份”“场景氛围”“单句表演指导”,各层可独立调整又能协同产出,确保角色声音贯穿一致,每句台词仍富有变化。
同时,模型支持行内音频标签(如 [emotion: excited]),可在文本任意位置加入多种标签组合,实现复杂情绪编排;即使只输入纯文本,没有任何提示,模型也能结合标点、句式与隐含语气自动理解,生成更具表现力的语音。
🎧 ASR 开源:嘈杂环境里的“全能耳朵”
同步开源的MiMo‑V2.5‑ASR聚焦“听得清、听得准”:
- 支持吴语、粤语、闽南语、四川话等主流中文方言;
- 在中英混说(Code‑Switch)场景下无需预先设置语种,识别顺畅;
- 应对强噪声、远距拾音、多人交谈(如会议)等复杂场景依然稳定;
- 能够精准识别古诗词、专业术语、歌曲歌词(含伴奏干扰);
- 原生输出标点,转写结果可直接用于下游任务,无需额外处理。
在多项权威评测中,该模型在中英文通用、方言、混说与歌词识别等方面均达到行业领先水平。
🚀 免费开放 + 开源,加速 Agent 生态落地
目前,三款 TTS 模型已在小米 MiMo 开放平台限时免费,开发者可通过 API 或 MiMo Studio 快速上手;同时,MiMo‑V2.5‑ASR 的模型权重与代码已全面开源,便于社区二次开发。
这一全栈语音能力的释放,意味着小米正从终端厂商延伸为 AI 基础设施提供者。让每位开发者都能以更低成本打造具备“导演级语音表现力”的智能体,下一代人机交互的可能性才真正被打开——未来,你的 AI 助手不只听懂你的话,更能用你想要的声音,说出更打动人心的回答。


















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?