马斯克点赞！Kimi 一篇新作重做残差：同等算力，效率多出25%-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

同样的算力与数据，为何有的模型就是跑得更好？月之暗面（Moonshot AI）给出了一个直击底层的解释。

3月16日，Kimi发布重磅技术报告 《Attention Residuals》（注意力残差）。这项工作把自2015年以来几乎没被动过的大模型“地基”——残差连接（Residual Connections）进行了彻底改造。实验显示，在相同算力下，用新方法训练出的模型，可以达到传统基线需要1.25倍算力才能追上的水平。

这一进展迅速在硅谷 AI 圈引发热议，社交媒体上有人直言这是“令人印象深刻的工作（Impressive work from Kimi）”。

Jerry Tworek（OpenAI o1 主要发明者）： 认为这或许是“深度学习2.0”的开端。

Andrej Karpathy（前 OpenAI 联合创始人）： 感叹行业对 “Attention is All You Need” 的理解还有很大挖掘空间。

为什么要动“祖传地基”？

传统残差连接解决了深层网络难训练的问题，但“等权相加”的方式太粗糙。随着网络变深，每一层的新信息很容易被累积的旧信息淹没，结果就是不少中间层变成“低效劳动者”。

Kimi 的“优雅旋转”：

团队发现，在深度方向上的信息消散，与 RNN 在时间维度上的遗忘，在数学结构上高度相似。于是他们把原本用在序列上的“注意力机制”横着用——相当于把它“旋转90度”，应用到网络的纵向深度上。

通过 Attention Residuals（AttnRes），每一层不再被动叠加上前面的输出，而是用一个小小的“查询向量”，主动、按需地从更早的层里挑选并提取信息。为控制大规模训练的内存与延迟，团队还提出了 Block AttnRes：把网络切成若干块，在基本不损伤效果的前提下，把推理时延的增幅压到2%以内。

在多项预训练与下游评测中，这一架构展现了出色的泛化能力：在 GPQA-Diamond 科学推理上取得了+7.5%的提升，数学与代码生成任务分别带来+3.6%和+3.1%的收益。

正如创始人在 GTC2026 的演讲中所说，行业正在遇到 Scaling 的瓶颈，必须对优化器、残差连接等底层基石重新设计。当多数人还在做“高层精装修”时，选择扎到最底部，用一记重锤撬动了深度学习的未来。