国产算力再突破！摩尔线程×硅基流动在MTT S5000上跑通DeepSeek V3 671B满血版高效推理，单卡表现接近国际一线-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

国产AI芯片与大模型的协同优化迈入关键节点。近日，**摩尔线程与硅基流动共同公布：基于国产GPU MTT S5000，已完成对千亿参数大模型 DeepSeek V3 671B“满血版”的深度适配与性能实测**。得益于FP8（8 位浮点）低精度推理的创新应用，实测数据十分亮眼：**单卡 Prefill（预填充）吞吐量超过4000 tokens/秒，Decode（解码）吞吐超过1000 tokens/秒**，整体推理效率已接近国际主流高端AI加速卡。

这项成果意义非凡。DeepSeek V3 671B作为国内领先的开源大模型，参数规模巨大、推理负载极高，过去多依赖英伟达A100/H100 等高端GPU部署。这次在**完全国产化硬件平台**上实现高效运行，既验证了摩尔线程MTT S5000在大模型推理场景中的真实实力，也意味着国产AI算力生态正从“能跑”迈向“高效跑”的新阶段。

核心技术进展在于对FP8低精度推理的深入优化。FP8在几乎不影响模型精度的前提下，能显著提升计算吞吐、降低显存占用并减少功耗。摩尔线程与硅基流动完成了从底层驱动、算子库到推理引擎的全栈优化，让MTT S5000充分释放FP8硬件加速潜能，有效支撑大模型的高并发、低延迟推理需求。

对行业来说，这让国产替代路线更为清晰：**高性能大模型不再必须依赖海外高端芯片**。在全球算力供应链充满不确定性的背景下，MTT S5000 + DeepSeek V3 的组合为金融、政务、能源等关键领域提供了高性价比、强安全性的本土化AI部署选择。

虽然在绝对峰值性能与软件生态成熟度上，国产GPU与国际顶尖产品仍有差距，但本次实测结果显示，**在特定高价值场景中，国产方案已具备落地竞争力**。随着软硬件协同优化持续深入，中国AI基础设施的自主可控能力正加速夯实——从“可用”到“好用”，还需要一次又一次这样的实测突破。