DeepSeek 发布 Engram 模块：为稀疏大模型加装“条件记忆轴”，效率显著提升-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

传统的 Transformer 在处理重复性知识时常常“重复计算”，遇到同样的模式也要从头来一遍，既拖慢网络深度又浪费算力。为破解这一瓶颈，DeepSeek 研究团队近期推出了名为 Engram 的创新模块，让稀疏大语言模型（LLM）拥有一条高效的“条件记忆轴”。

不同于现有的混合专家模型（MoE），Engram 并不是替代者，而是一个增强组件。它把经典的 N-gram 嵌入思路现代化，做成可扩展、查询复杂度为 $O(1)$ 的查找库。通俗来说，Engram 就像模型的“快捷记忆本”，专门存放常见短语、实体等静态模式，让骨干网络把精力留给更难的推理和长距离交互。

在实际应用中，DeepSeek团队在包含2620亿 token 的数据集上进行了预训练实验。结果显示，把约20%～25%的稀疏参数预算分配给 Engram 内存后，模型的验证损失显著下降。在 Engram-27B 和 Engram-40B 的测试中，即使保持激活参数不变，模型在知识、推理、代码与数学等多项基准（如 MMLU、GSM8K）上，整体表现也优于纯 MoE 基线模型。

在长文本场景下，Engram 同样亮眼。将上下文窗口扩展到32，768个 token 后，Engram 模型在多查询“大海捞针”（NIAH）与变量跟踪等任务上准确率更高。这样的设计不仅增强了模型的知识储备与召回，还把静态重构任务分担出去，相当于变相提升了模型的有效深度，让 AI 更聪明、更高效。

划重点: