传统 Transformer 在处理重复性知识时常出现“重复计算”,每次碰到相似模式都要从头来过,既占用网络深度也浪费算力。为破解这一瓶颈,DeepSeek 研究团队近日推出名为 Engram 的新模块,为稀疏大语言模型(LLM)加入一个高效的“条件记忆轴”。

与现有的混合专家模型(MoE)不同,Engram 并非替代者,而是协同补充:它把经典的 N-gram 嵌入方法现代化,升级为一种可扩展、查询复杂度为 $O(1)$ 的查找式存储库。打个比方,Engram 就像模型的“速记本”,专门缓存常见短语、实体等固定模式,让主干网络把算力留给更复杂的推理与长距离依赖。
在实际训练中,
此外,Engram 在长文本场景也表现亮眼。将上下文窗口扩展到 32,768 个 token 后,Engram 模型在多查询“大海捞针”(NIAH)与变量跟踪等任务中展现出更高的准确率。这一设计不仅增强了模型的静态知识储备,还分担了重复重构的工作负载,等于变相提升了模型的有效深度,让 AI 更聪明、更高效。
划重点:
-
🧠 创新架构:
引入 Engram 模块,通过 $O(1)$ 哈希查找高效检索静态知识,让模型主干更专注于逻辑与推理。DeepSeek -
📈 性能飞跃: 在相同算力条件下,接入 Engram 的 27B 与 40B 模型在 MMLU、数学及代码等核心榜单上,全面胜出传统 MoE 架构。
-
📑 长文本增强: 在 32k 上下文测试中,召回能力显著提升,同时有效降低预测过程的层间开销,长上下文表现更稳。

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?