小米推出新一代 MoE 大模型 MiMo-V2-Flash，加速 AGI 发展-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

在今日举行的2025小米人车家全生态合作伙伴大会上，小米新任 Xiaomi MiMO 大模型负责人罗福莉首度亮相，并正式推出了全新的 MoE（Mixture of Experts）大模型 ——MiMo-V2-Flash。该模型被视为小米迈向人工通用智能(AGI)目标的第二步。

罗福莉在社交媒体上系统讲解了 MiMo-V2-Flash 的技术架构。该模型基于 Hybrid SWA 架构，设计兼顾简洁与优雅，并在长上下文推理方面显著优于其他线性注意力变体。需要强调的是，窗口大小128被验证为最优配置，过大的窗口会导致模型性能下滑。此外，固定的 KV 缓存设计增强了对现有基础设施的兼容性。

同时，罗福莉还提到了一项关键技术 —— 多标记预测（MTP）。借助 MTP，模型在高效的强化学习(RL)中取得了明显增益。即便不只停留在首层，MTP 也仅需少量微调即可达到更高的接受长度。三层 MTP 在编程任务中的表现尤为亮眼，接受长度可超过3，速度约提升2.5倍，有效解决了小批量 On-Policy RL 中的 GPU 空转问题。

在后期训练阶段，小米采纳了 Thinking Machine 提出的 On-Policy Distillation，用于融合多个 RL 模型。借由该方法，小米在传统 SFT 与 RL 流程中以约其1/50的计算量便达成了教师模型的性能。该过程彰显学生模型持续进化的潜能，最终形成自我强化的闭环。

罗福莉称，团队在数月内把这些思路落地为可上线的生产系统，体现出出色的效率与创造力。