寒武纪完成 DeepSeek-V4 Day 0 适配,助推 AI 模型高效运行

寒武纪宣布,已在第一时间完成对深度求索公司最新开源 AI 模型 DeepSeek-V4 的 Day 0 适配。这意味着模型在发布当日即可稳定上线运行,为用户带来更流畅高效的智能体验。基于自研的高性能融合算子库 Torch-MLU-Ops,寒武纪对模型中的 Compressor、mHC 等关键模块进行了定向加速,显著提升了推理效率。

在推理框架方面,寒武纪采用 vLLM(Variable Length Language Model)技术,全面支持多种并行方式,包括 TP、PP、SP、DP 与 EP 等。同时,还实现了通信与计算并行、低精度量化以及 PD 分离部署等优化策略。在满足时延约束的前提下,整体处理速度得到大幅提升。

此外,寒武纪深度挖掘硬件潜力,通过优化 MLU 的访存与调度,加速了稀疏 Attention 与 Indexer 等结构的执行。凭借高互联带宽与低通信时延,不同负载场景下的通信占比被压缩至最低,有效提升了分布式推理的资源利用率。

值得关注的是,DeepSeek-V4 支持百万字级超长上下文,在 Agent 能力、通识知识与推理表现方面,位居国内外开源阵营的前列。用户可通过官网或官方 App 与最新的 DeepSeek-V4 互动,体验超长上下文带来的全新用法。同时,API 服务已同步更新,开发者可便捷调用新模型。

这一系列适配与优化不仅强化了模型性能,也为后续 AI 技术应用夯实了基础,充分展现了寒武纪在人工智能领域的技术实力。

划重点:  

🌟 寒武纪完成 DeepSeek-V4 的 Day 0 适配,发布当日即可稳定运行。  

🚀 自研高性能算子库叠加推理框架优化,推理效率显著提升。  

📈 DeepSeek-V4 支持百万字超长上下文,带来领先的 AI 体验。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享