寒武纪完成 DeepSeek-V4 全系 Day0 适配,优化代码同步开源

寒武纪今日表示,已在 vLLM 推理框架上完成对深度求索(DeepSeek)最新开源模型DeepSeek-V4全系列的“Day0”适配。此次覆盖 285B 的 Flash 版与 1.6T 的 Pro 版,保证模型发布当天即可在寒武纪硬件平台稳定运行,相关适配代码已同步开源到 GitHub 社区。

针对DeepSeek-V4独有的稀疏注意力与压缩结构,寒武纪借助自研向量融合算子库 Torch-MLU-Ops,对 Compressor 等关键模块进行了专项加速。利用 BangC 高性能编程语言,团队实现了稀疏 Attention 与 GroupGemm 等热点算子的极致优化内核,并在 vLLM 框架中完整支持 TP/PP/SP/DP/EP 五维混合并行、低精度量化以及 PD 分离部署。在满足时延要求的前提下,端到端推理的词元吞吐量明显提升。

硬件层面,寒武纪深挖 MLU 的访存与排序加速能力,有效应对DeepSeek-V4复杂的索引设计。依托高互联带宽与低时延通信优势,该方案最大化减少 Prefill 与 Decode 场景的通信开销,提升推理利用率。

行业观点认为,DeepSeek-V4 凭借百万字(1M)超长上下文和顶尖的逻辑推理表现,对底层算力架构提出了更高要求。寒武纪在模型发布当日即完成快速适配,不仅展现了国产算力平台承载超大规模、复杂结构模型的能力,也意味着国产 AI 产业链在软硬协同方面趋于成熟,为大模型的普惠应用提供了高效的算力底座。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享