在今日举行的2025小米人车家全生态合作伙伴大会上,小米新任 Xiaomi MiMO 大模型负责人罗福莉首度亮相,并正式推出了全新的 MoE(Mixture of Experts)大模型 ——MiMo-V2-Flash。该模型被视为小米迈向人工通用智能(AGI)目标的第二步。
罗福莉在社交媒体上系统讲解了 MiMo-V2-Flash 的技术架构。该模型基于 Hybrid SWA 架构,设计兼顾简洁与优雅,并在长上下文推理方面显著优于其他线性注意力变体。需要强调的是,窗口大小128被验证为最优配置,过大的窗口会导致模型性能下滑。此外,固定的 KV 缓存设计增强了对现有基础设施的兼容性。
同时,罗福莉还提到了一项关键技术 —— 多标记预测(MTP)。借助 MTP,模型在高效的强化学习(RL)中取得了明显增益。即便不只停留在首层,MTP 也仅需少量微调即可达到更高的接受长度。三层 MTP 在编程任务中的表现尤为亮眼,接受长度可超过3,速度约提升2.5倍,有效解决了小批量 On-Policy RL 中的 GPU 空转问题。
在后期训练阶段,小米采纳了 Thinking Machine 提出的 On-Policy Distillation,用于融合多个 RL 模型。借由该方法,小米在传统 SFT 与 RL 流程中以约其1/50的计算量便达成了教师模型的性能。该过程彰显学生模型持续进化的潜能,最终形成自我强化的闭环。
罗福莉称,团队在数月内把这些思路落地为可上线的生产系统,体现出出色的效率与创造力。
要点速览:
🌟 MiMo-V2-Flash 标志着小米迈向 AGI 的第二步,采用先进 MoE 架构。
⚡ 多标记预测带来明显的性能与速度提升。
💡 后期训练融合多款 RL 模型,体现出强劲的自我强化能力。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?