月之暗面发布Kimi Linear:长上下文处理提速2.9倍

在人工智能生成内容(AIGC)领域,月之暗面团队推出的 Kimi Linear 模型带来明显升级。该模型在长上下文场景下的处理速度提升至原来的2.9倍,解码速度提高到6倍,有效突破了传统全注意力机制的性能瓶颈。Kimi Linear 采用混合线性注意力架构,在上下文理解与强化学习等多种任务中,表现优于常用的 Softmax 注意力。

image.png

传统 Transformer 使用 Softmax 注意力,计算复杂度为 O(n²),当文本变长时,计算量与显存消耗急剧增加,影响实际应用。线性注意力将复杂度降到 O(n),显著提升处理效率。但早期线性注意力在效果上不够理想,尤其在长序列的记忆管理方面有短板。

image.png

Kimi Linear 的核心创新是 Kimi Delta Attention(KDA)。它通过细粒度门控机制优化记忆管理,可根据输入动态调整记忆状态,合理控制信息的保留与遗忘,更适合处理长时间、多轮交互。

同时,Kimi Linear 采用 Moonlight 架构,将 KDA 与全注意力层以 3:1 的比例进行混合,兼顾效率与能力。这一设计让模型在长上下文任务上表现更稳,同时显著降低计算成本。

实验结果显示,Kimi Linear 在多项任务中表现突出,尤其是在需要长程记忆的回文任务和多查询关联回忆任务上,准确率明显优于前代模型,体现出更强的细粒度控制能力。

划重点:  

🌟 Kimi Linear 在长上下文处理上提速2.9倍,解码速度提升至6倍。  

🔍 引入 Kimi Delta Attention(KDA),更好地管理记忆与信息遗忘。  

📈 采用 3:1 的混合架构,平衡计算效率与模型能力,实验表现亮眼。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享