DeepSeek 神秘代号浮现:“MODEL1” 新架构或将于2月登场,代码能力再升级

业内媒体 报道,值此 DeepSeek-R1 发布满一周年之际,DeepSeek 下一代旗舰模型的动向正悄然显露。结合 The Information 的消息,这款备受关注的新模型(或为 DeepSeek V4)最快可能在今年2月中旬(农历新年期间)上线,预计将带来更强的代码生成表现。

DeepSeek

有开发者在 DeepSeek 的 GitHub 仓库中发现,最新更新的 FlashMLA 代码库里,在114个文件中出现了至少28处对“MODEL1”的引用。代码逻辑显示,“MODEL1” 是一个不同于现有 “V32”(即 DeepSeek-V3.2)的全新架构。两者的主要差异集中在键值(KV)缓存的组织方式、稀疏性的处理策略,以及对 FP8 数据格式解码的支持,这暗示新模型在内存占用和计算效率上进行了有针对性的底层优化。

此前,DeepSeek 团队相继发布了关于“优化残差连接(mHC)”和受生物学启发的“AI 记忆模块(Engram)”的相关论文。业内普遍认为,这些近期研究成果很可能会被整合进正在打造的“MODEL1”,为即将到来的新旗舰提供关键技术支撑。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享