小米推出新一代 MoE 大模型 MiMo-V2-Flash,加速 AGI 发展

在今日举行的2025小米人车家全生态合作伙伴大会上,小米新任 Xiaomi MiMO 大模型负责人罗福莉首度亮相,并正式推出了全新的 MoE(Mixture of Experts)大模型 ——MiMo-V2-Flash。该模型被视为小米迈向人工通用智能(AGI)目标的第二步。

罗福莉在社交媒体上系统讲解了 MiMo-V2-Flash 的技术架构。该模型基于 Hybrid SWA 架构,设计兼顾简洁与优雅,并在长上下文推理方面显著优于其他线性注意力变体。需要强调的是,窗口大小128被验证为最优配置,过大的窗口会导致模型性能下滑。此外,固定的 KV 缓存设计增强了对现有基础设施的兼容性。

同时,罗福莉还提到了一项关键技术 —— 多标记预测(MTP)。借助 MTP,模型在高效的强化学习(RL)中取得了明显增益。即便不只停留在层,MTP 也仅需少量微调即可达到更高的接受长度。三层 MTP 在编程任务中的表现尤为亮眼,接受长度可超过3,速度约提升2.5倍,有效解决了小批量 On-Policy RL 中的 GPU 空转问题。

在后期训练阶段,小米采纳了 Thinking Machine 提出的 On-Policy Distillation,用于融合多个 RL 模型。借由该方法,小米在传统 SFT 与 RL 流程中以约其1/50的计算量便达成了教师模型的性能。该过程彰显学生模型持续进化的潜能,最终形成自我强化的闭环。

罗福莉称,团队在数月内把这些思路落地为可上线的生产系统,体现出出色的效率与创造力。

要点速览:

🌟 MiMo-V2-Flash 标志着小米迈向 AGI 的第二步,采用先进 MoE 架构。  

⚡ 多标记预测带来明显的性能与速度提升。  

💡 后期训练融合多款 RL 模型,体现出强劲的自我强化能力。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享