DeepSeek 发布 Engram 模块：为稀疏大模型加入“条件记忆轴”，效率显著提升-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

传统 Transformer 在处理重复性知识时常出现“重复计算”，每次碰到相似模式都要从头来过，既占用网络深度也浪费算力。为破解这一瓶颈，DeepSeek 研究团队近日推出名为 Engram 的新模块，为稀疏大语言模型（LLM）加入一个高效的“条件记忆轴”。

与现有的混合专家模型（MoE）不同，Engram 并非替代者，而是协同补充：它把经典的 N-gram 嵌入方法现代化，升级为一种可扩展、查询复杂度为 $O(1)$ 的查找式存储库。打个比方，Engram 就像模型的“速记本”，专门缓存常见短语、实体等固定模式，让主干网络把算力留给更复杂的推理与长距离依赖。

在实际训练中，DeepSeek团队基于包含 2620 亿 token 的数据集进行预训练。实验显示，将约 20% 到 25% 的稀疏参数预算用于 Engram 内存后，模型的验证损失显著下降。在 Engram-27B 与 Engram-40B 的评测中，即便激活参数不变，模型在知识、推理、代码与数学等多项基准（如 MMLU、GSM8K）上，整体表现均超过纯 MoE 基准模型。

此外，Engram 在长文本场景也表现亮眼。将上下文窗口扩展到 32,768 个 token 后，Engram 模型在多查询“大海捞针”（NIAH）与变量跟踪等任务中展现出更高的准确率。这一设计不仅增强了模型的静态知识储备，还分担了重复重构的工作负载，等于变相提升了模型的有效深度，让 AI 更聪明、更高效。

划重点: