最近,月之暗面发布了一项颇具突破性的技术——“Kimi Linear”混合线性注意力架构。与传统的全注意力方案相比,它在短上下文、超长序列以及强化学习(RL)等多种场景中表现更优。该架构的核心创新是“Kimi Delta Attention”(KDA),基于 Gated DeltaNet 进行优化升级,通过更高效的门控机制,提升有限状态 RNN(递归神经网络)记忆的利用效率。
Kimi Linear 的整体设计颇为独特:由三路 Kimi Delta Attention 搭配一套全局 MLA(多层感知机)构成。受益于对 Gated DeltaNet 的改良,KDA 以更细颗粒度的门控来管理状态,显著压缩有限状态 RNN 的记忆使用。这样的架构既提升模型的信息处理速度,又有效降低内存占用,实用性更强。

官方数据表明,在处理 1M token 的场景下,Kimi Linear 的 KV cache 占用减少了 75%,解码吞吐量最高提升至 6 倍。在训练速度(TPOT)方面,相比传统 MLA,Kimi Linear 实现了 6.3 倍的加速。这些亮眼的表现意味着 Kimi Linear 在各类 AI 任务中具有广泛适用性,尤其适合对速度和内存要求极高的应用场景。

伴随人工智能的快速发展,提升模型的处理能力与效率已成为行业关键课题。月之暗面的 Kimi Linear 通过其创新架构,为这一方向提供了新的解决方案,未来有望成为行业新标杆。
Kimi Linear 的技术报告已发布在官方 GitHub 页面,感兴趣的读者可深入了解具体细节。
技术报告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf
                    














用户38505528 1个月前0 
粘贴不了啊用户12648782 2个月前0 
用法杂不对呢?yfarer 2个月前0 
草稿id无法下载,是什么问题?