月之暗面推出Kimi Linear新架构：KV缓存压缩75%，推理速度最高提至6倍，注意力机制迎来重大突破-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

最近，月之暗面发布了一项颇具突破性的技术——“Kimi Linear”混合线性注意力架构。与传统的全注意力方案相比，它在短上下文、超长序列以及强化学习（RL）等多种场景中表现更优。该架构的核心创新是“Kimi Delta Attention”（KDA），基于 Gated DeltaNet 进行优化升级，通过更高效的门控机制，提升有限状态 RNN（递归神经网络）记忆的利用效率。

Kimi Linear 的整体设计颇为独特：由三路 Kimi Delta Attention 搭配一套全局 MLA（多层感知机）构成。受益于对 Gated DeltaNet 的改良，KDA 以更细颗粒度的门控来管理状态，显著压缩有限状态 RNN 的记忆使用。这样的架构既提升模型的信息处理速度，又有效降低内存占用，实用性更强。

官方数据表明，在处理 1M token 的场景下，Kimi Linear 的 KV cache 占用减少了 75%，解码吞吐量最高提升至 6 倍。在训练速度（TPOT）方面，相比传统 MLA，Kimi Linear 实现了 6.3 倍的加速。这些亮眼的表现意味着 Kimi Linear 在各类 AI 任务中具有广泛适用性，尤其适合对速度和内存要求极高的应用场景。

伴随人工智能的快速发展，提升模型的处理能力与效率已成为行业关键课题。月之暗面的 Kimi Linear 通过其创新架构，为这一方向提供了新的解决方案，未来有望成为行业新标杆。

Kimi Linear 的技术报告已发布在官方 GitHub 页面，感兴趣的读者可深入了解具体细节。

技术报告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf