最近,月之暗面发布了一项颇具突破性的技术——“Kimi Linear” 混合线性注意力架构。该方案在短序列、长序列处理以及强化学习(RL)等多种场景下,相比传统的全注意力方法表现更佳。其核心创新是 “Kimi Delta Attention”(KDA),这是在 Gated DeltaNet 的基础上优化升级,引入更高效的门控机制,进一步提升有限状态 RNN(递归神经网络)记忆的利用效率。
Kimi Linear 的整体设计颇具巧思,由三路 Kimi Delta Attention 搭配一组全局 MLA(多层感知机)构成。得益于对 Gated DeltaNet 的改良,KDA 通过更细颗粒度的门控策略,显著压缩有限状态 RNN 的记忆占用。不仅让信息处理速度更快,还有效降低内存需求,实用性更强。

官方数据显示,在 1M token 的测试场景中,Kimi Linear 的 KV cache 使用量下降了约 75%,解码吞吐量最高可提升至 6 倍。而在训练侧的 TPOT(训练速度)上,相比传统 MLA,Kimi Linear 达成了 6.3 倍加速。这些亮眼的性能提升,表明 Kimi Linear 在各类 AI 任务中具备广泛适用性,尤其是在对速度与内存要求极高的应用中优势明显。

随着人工智能的高速发展,提升模型的处理效率与能力已成为行业焦点。月之暗面的 Kimi Linear 通过创新架构给出了新的解法,未来有望成为新的参考标准。
Kimi Linear 技术报告的更多细节可在官方 GitHub 页面查看,欢迎深入阅读其技术实现。
技术报告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf















用户38505528 1个月前0
粘贴不了啊用户12648782 2个月前0
用法杂不对呢?yfarer 2个月前0
草稿id无法下载,是什么问题?