DeepSeek 发布 Engram 模块:为稀疏大模型加入“条件记忆轴”,效率显著提升

传统 Transformer 在处理重复性知识时常出现“重复计算”,每次碰到相似模式都要从头来过,既占用网络深度也浪费算力。为破解这一瓶颈,DeepSeek 研究团队近日推出名为 Engram 的新模块,为稀疏大语言模型(LLM)加入一个高效的“条件记忆轴”。

image.png

与现有的混合专家模型(MoE)不同,Engram 并非替代者,而是协同补充:它把经典的 N-gram 嵌入方法现代化,升级为一种可扩展、查询复杂度为 $O(1)$ 的查找式存储库。打个比方,Engram 就像模型的“速记本”,专门缓存常见短语、实体等固定模式,让主干网络把算力留给更复杂的推理与长距离依赖。

在实际训练中,DeepSeek团队基于包含 2620 亿 token 的数据集进行预训练。实验显示,将约 20% 到 25% 的稀疏参数预算用于 Engram 内存后,模型的验证损失显著下降。在 Engram-27B 与 Engram-40B 的评测中,即便激活参数不变,模型在知识、推理、代码与数学等多项基准(如 MMLU、GSM8K)上,整体表现均超过纯 MoE 基准模型。

此外,Engram 在长文本场景也表现亮眼。将上下文窗口扩展到 32,768 个 token 后,Engram 模型在多查询“大海捞针”(NIAH)与变量跟踪等任务中展现出更高的准确率。这一设计不仅增强了模型的静态知识储备,还分担了重复重构的工作负载,等于变相提升了模型的有效深度,让 AI 更聪明、更高效。

划重点:

  • 🧠 创新架构: DeepSeek引入 Engram 模块,通过 $O(1)$ 哈希查找高效检索静态知识,让模型主干更专注于逻辑与推理。

  • 📈 性能飞跃: 在相同算力条件下,接入 Engram 的 27B 与 40B 模型在 MMLU、数学及代码等核心榜单上,全面胜出传统 MoE 架构。

  • 📑 长文本增强: 在 32k 上下文测试中,召回能力显著提升,同时有效降低预测过程的层间开销,长上下文表现更稳。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享