月之暗面推出Kimi Linear新架构:KV缓存压缩75%,推理速度最高提至6倍,注意力机制迎来重大突破

最近,月之暗面发布了一项颇具突破性的技术——“Kimi Linear”混合线性注意力架构。与传统的全注意力方案相比,它在短上下文、超长序列以及强化学习(RL)等多种场景中表现更优。该架构的核心创新是“Kimi Delta Attention”(KDA),基于 Gated DeltaNet 进行优化升级,通过更高效的门控机制,提升有限状态 RNN(递归神经网络)记忆的利用效率。

Kimi Linear 的整体设计颇为独特:由三路 Kimi Delta Attention 搭配一套全局 MLA(多层感知机)构成。受益于对 Gated DeltaNet 的改良,KDA 以更细颗粒度的门控来管理状态,显著压缩有限状态 RNN 的记忆使用。这样的架构既提升模型的信息处理速度,又有效降低内存占用,实用性更强。

image.png

官方数据表明,在处理 1M token 的场景下,Kimi Linear 的 KV cache 占用减少了 75%,解码吞吐量最高提升至 6 倍。在训练速度(TPOT)方面,相比传统 MLA,Kimi Linear 实现了 6.3 倍的加速。这些亮眼的表现意味着 Kimi Linear 在各类 AI 任务中具有广泛适用性,尤其适合对速度和内存要求极高的应用场景。

image.png

伴随人工智能的快速发展,提升模型的处理能力与效率已成为行业关键课题。月之暗面的 Kimi Linear 通过其创新架构,为这一方向提供了新的解决方案,未来有望成为行业新标杆。

Kimi Linear 的技术报告已发布在官方 GitHub 页面,感兴趣的读者可深入了解具体细节。

技术报告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享