寒武纪完成 DeepSeek-V4 全系 Day0 适配，优化代码同步开源-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

寒武纪今日表示，已在 vLLM 推理框架上完成对深度求索（DeepSeek）最新开源模型DeepSeek-V4全系列的“Day0”适配。此次覆盖 285B 的 Flash 版与 1.6T 的 Pro 版，保证模型发布当天即可在寒武纪硬件平台稳定运行，相关适配代码已同步开源到 GitHub 社区。

针对DeepSeek-V4独有的稀疏注意力与压缩结构，寒武纪借助自研向量融合算子库 Torch-MLU-Ops，对 Compressor 等关键模块进行了专项加速。利用 BangC 高性能编程语言，团队实现了稀疏 Attention 与 GroupGemm 等热点算子的极致优化内核，并在 vLLM 框架中完整支持 TP/PP/SP/DP/EP 五维混合并行、低精度量化以及 PD 分离部署。在满足时延要求的前提下，端到端推理的词元吞吐量明显提升。

硬件层面，寒武纪深挖 MLU 的访存与排序加速能力，有效应对DeepSeek-V4复杂的索引设计。依托高互联带宽与低时延通信优势，该方案最大化减少 Prefill 与 Decode 场景的通信开销，提升推理利用率。

行业观点认为，DeepSeek-V4 凭借百万字（1M）超长上下文和顶尖的逻辑推理表现，对底层算力架构提出了更高要求。寒武纪在模型发布当日即完成快速适配，不仅展现了国产算力平台承载超大规模、复杂结构模型的能力，也意味着国产 AI 产业链在软硬协同方面趋于成熟，为大模型的普惠应用提供了高效的算力底座。