小米推出自研 MiMo-V2-TTS 语音合成大模型，可实现多方言与情感的深度可控-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

小米官宣推出自研语音合成大模型 Xiaomi MiMo-V2-TTS，意味着其在可控性强、表现力突出的语音生成方向取得里程碑式进展。该模型基于自研 Audio Tokenizer 与多码本的语音-文本联合建模框架，

依托上亿小时语音的大规模预训练，实现了从整体风格把握到细微情绪变化的精准调控。不同于传统 TTS，MiMo-V2-TTS 可在同一句话中完成语气转折与情感递进，逼真还原人类说话的自然节奏与韵律，并可生成音高与节奏更准确的歌声。在技术实现上，小米引入多维度强化学习，兼顾生成稳定性与表现力。模型能够自动识别标点、语气词与强调标记等文本信号，无需额外人工标注即可转化为恰当的语音呈现。此外，模型具备出色的跨地域适配能力，支持包括东北话、四川话、河南话、粤语及台湾腔等多种方言，并可进行角色化演绎。

作为小米语音技术路线的重要里程碑，MiMo-V2-TTS 未来将继续拓展多语种覆盖，并与 MiMo-V2-Omni 的多模态理解能力深度协同。从单一语音合成进化为多模态感知与表达的协同，将推动 AI 智能体（Agent）从纯语义交互走向更具人格与情感共鸣的人机沟通，显著提升智能座舱与智能家居等场景的体验。