会说能唱还会逗!小米推出 MiMo-V2-TTS 大模型:情绪拿捏、方言切换都不在话下

语音合成正从“机械读稿”迈向“情感交流”的新阶段。3月19日,小米 正式发布自研语音合成大模型 Xiaomi MiMo-V2-TTS。它不只是让机器“会说话”的工具,更像一位集表演、说话、唱歌于一身的“全能声优”。

image.png

MiMo-V2-TTS 基于小米自研的 Audio Tokenizer(音频分词器)与多码本的语音-文本联合建模架构。经过在上亿小时语音数据上的大规模预训练,模型展现出惊人的多粒度声音风格把控力:

  • 情感大师: 既能把握整体基调,也能精准微调局部情绪;同一句话里也能自然转场,情感层次细腻、韵律贴近真人。

  • 跨界歌者: 不止会说,还能高质量地“开嗓”演唱,音高与节奏拿捏到位,唱腔自然、感染力强。

  • 方言达人: 贴近各地用户习惯,支持东北话、四川话、河南话、粤语、台湾等多种方言,并可进行角色化与风格化演绎。

更值得一提的是,MiMo-V2-TTS 极大降低了使用门槛。它能智能识别文本中的标点、语气词和强调标记,自动转换为恰当的语音表达,无需用户额外标注或手动调参。

小米 而言,这一发布是其语音技术路线的重要里程碑。接下来,小米计划扩展到更多除中英文外的语种,并与 MiMo-V2-Omni 的多模态理解能力深度融合。

当 AI Agent 既能看懂世界,又能用富有感染力的人类声音讲述世界,人机交互的未来形态已清晰可见。随着 MiMo-V2-TTS 落地,小米生态内的智能设备将不再冰冷,而会成为更有“人情味”的数字伙伴。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享