Moonshot AI推出 Kimi Linear:线性注意力架构提速6倍,KDA 内核同步开源

国内大模型团队 Moonshot AI 今日在 Hugging Face 正式发布技术报告 《Kimi Linear Tech Report》(报告链接),宣布推出全新架构 Kimi Linear —— 一种可直接替换完全注意力(Full Attention)的混合线性方案,兼顾高效与强劲表现,被誉为“智能体时代注意力机制的新起点”。

QQ20251031-100530.png

报告指出,Kimi Linear 在 速度、内存效率和长上下文处理能力 三个方面都取得了显著提升。该模型可将 KV 缓存使用量最多减少75%,并在 100万(1M)上下文长度下实现 解码吞吐量最高提升6倍,显著优化了长文本推理与多轮对话体验。

Kimi Linear 的核心突破来自三项关键技术:

  • Delta Attention: 一种对硬件友好的线性注意力机制,采用门控 Delta 规则进行优化,在性能与能耗之间找到更优平衡;

  • Linear Architecture: 首个在多维指标上整体超越传统完全注意力的混合线性架构,同时兼顾速度与模型表达能力;

  • 开放生态与实证验证: Moonshot 提供了 开源 KDA 内核vLLM 集成支持模型检查点,并开展了大规模、严格且公平的对比实验,验证了 Kimi Linear 的稳定性与可扩展性。

Moonshot AI 表示,Kimi Linear 不只是一次架构升级,更是为智能体(AI Agent)时代打造的底层能力。随着线性注意力逐步成熟,它有望在长上下文推理、智能助手、多模态生成等场景中,成长为下一代通用标准。

地址:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享