小米推出自研 MiMo-V2-TTS 语音合成大模型,可实现多方言与情感的深度可控

小米官宣推出自研语音合成大模型 Xiaomi MiMo-V2-TTS,意味着其在可控性强、表现力突出的语音生成方向取得里程碑式进展。该模型基于自研 Audio Tokenizer 与多码本的语音-文本联合建模框架,

依托上亿小时语音的大规模预训练,实现了从整体风格把握到细微情绪变化的精准调控。不同于传统 TTS,MiMo-V2-TTS 可在同一句话中完成语气转折与情感递进,逼真还原人类说话的自然节奏与韵律,并可生成音高与节奏更准确的歌声。在技术实现上,小米引入多维度强化学习,兼顾生成稳定性与表现力。模型能够自动识别标点、语气词与强调标记等文本信号,无需额外人工标注即可转化为恰当的语音呈现。此外,模型具备出色的跨地域适配能力,支持包括东北话、四川话、河南话、粤语及台湾腔等多种方言,并可进行角色化演绎。

作为小米语音技术路线的重要里程碑,MiMo-V2-TTS 未来将继续拓展多语种覆盖,并与 MiMo-V2-Omni 的多模态理解能力深度协同。从单一语音合成进化为多模态感知与表达的协同,将推动 AI 智能体(Agent)从纯语义交互走向更具人格与情感共鸣的人机沟通,显著提升智能座舱与智能家居等场景的体验。

00750fiJly1ibbls9aowuj320ncn2qvi.jpg

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享