DeepSeek 代码中冒出神秘“MODEL1”,新旗舰或将于 2 月登场

国产 AI 头部玩家DeepSeek近期频繁出招,赶在 R1 上线满一周年之际,其技术走向再度牵动开发者关注。依据最新GitHub提交记录,在DeepSeek更新的 FlashMLA 代码中,出现了大量指向未公开模型“MODEL1”的标识符。

在这套覆盖上百个文件的仓库里,多处代码把“MODEL1”和现有的V3.2 版本并排出现,透露出它并非对旧架构的小修小改,更可能是全新序列的起点。细节对比也支持这一判断:新的设计在键值(KV)缓存布局、稀疏处理逻辑、以及对 FP8 数据格式的解码支持等方面,明显区别于V3 系列的思路,这通常意味着在算力利用与显存占用上有进一步提升。

早前的传闻称,DeepSeek或将在 2026 年农历新年前后推出名为DeepSeek V4的旗舰模型,主打更强的代码生成能力。结合不久前官方公开的两篇论文——“优化残差连接(mHC)”与“AI 记忆模块(Engram)”,外界普遍猜测,“MODEL1”很可能就是这些尖端科研成果的工程化落地。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享