国内大模型团队 Moonshot AI 今日于 Hugging Face 正式发布技术报告 《Kimi Linear Tech Report》(报告链接),同步推出全新架构 Kimi Linear —— 这是一种可直接替换完全注意力(Full Attention)的混合线性方案,兼顾效率与表现,被认为是“智能体时代注意力机制的新起点”。

报告指出,Kimi Linear 在 速度、内存利用率与长上下文处理能力 三个维度均取得显著提升。该模型可将 KV 缓存占用最多降低75%,并在 100万(1M)上下文 场景下实现 解码吞吐量最高提升6倍,大幅优化长文本推理与多轮对话体验。
Kimi Linear 的三大核心创新包括:
- 
Delta Attention:一种对硬件友好的线性注意力方法,引入门控 Delta 规则进行优化,在性能与能耗之间取得平衡;
 - 
Linear Architecture:首个在多维指标上整体超越传统完全注意力机制的混合线性架构,同时兼顾推理速度与模型表达力;
 - 
开放生态与实证验证:Moonshot 提供了 开源 KDA 内核、vLLM 集成支持 和 模型检查点,并开展大规模、规范的对比实验,证实 Kimi Linear 的稳定性与可扩展性。
 
Moonshot AI 表示,Kimi Linear 不仅是一次架构升级,更是面向智能体(AI Agent)时代打造的底层机制。随着线性注意力逐步成熟,预计将在长上下文推理、智能助手与多模态生成等场景中,成长为下一代通用标准。
地址:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
                    














用户38505528 1个月前0 
粘贴不了啊用户12648782 2个月前0 
用法杂不对呢?yfarer 2个月前0 
草稿id无法下载,是什么问题?