DeepSeek 神秘代码曝光:“MODEL1” 全新架构或将于2月登场,编程能力继续进化

AIbase 披露,赶在 DeepSeek-R1 发布满一周年之际,DeepSeek 下一代旗舰模型的蛛丝马迹已开始显现。结合 The Information 的相关爆料,这款备受关注的新模型(或为 DeepSeek V4)最快可能在今年2月中旬(正值农历新年)正式亮相,预计会带来更强的代码生成表现。

DeepSeek

有开发者在 DeepSeek 的 GitHub 仓库中发现,最新更新的 FlashMLA 代码库里,跨越114个文件共出现了28处名为“MODEL1”的神秘标识。代码结构显示,“MODEL1” 与现有的 “V32”(DeepSeek-V3.2)并非同一套架构。两者的主要差别集中在键值(KV)缓存的布局、稀疏性处理策略,以及对 FP8 数据格式解码的支持。这些变化暗示新模型在内存占用和计算效率上做了更深入的底层优化。

此前,DeepSeek 团队已相继发表了关于“优化残差连接(mHC)”以及受生物学启发的“AI 记忆模块(Engram)”等技术论文。业界普遍认为,这些最新研究很可能会被整合进正在打造的“MODEL1”,为这款即将发布的旗舰模型提供核心技术支撑。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享