国产算力再迈一步！摩尔线程联手硅基流动在MTT S5000跑通DeepSeek V3 671B满配版高效推理，单卡速度接近全球一线水平-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

国产AI芯片与大模型的协同优化迎来关键里程碑。近日，**摩尔线程携手硅基流动宣布，依托国产GPU MTT S5000，已完成对超大参数模型 DeepSeek V3 671B “满配版”的深度适配与性能实测**。借助FP8（8位浮点）低精度推理的创新应用，实测数据非常抢眼：**单卡 Prefill（预填充）吞吐超过4000 tokens/秒，Decode（解码）吞吐超过1000 tokens/秒**，整体推理效率已逼近国际主流高端AI加速卡。

这一进展含义重大。作为国内领先的开源大模型，DeepSeek V3 671B参数规模巨大、推理压力很高，过去主要依靠英伟达A100/H100等高端GPU来部署。本次在**完全国产化硬件平台**上顺畅高效运行，既证明了摩尔线程 MTT S5000 在大模型推理中的真实力，也意味着国产AI算力生态正从“能跑”迈向“高效跑”的新阶段。

此次突破的核心在于对FP8低精度推理的深入优化。FP8在几乎不影响模型准确性的情况下，能明显提升计算吞吐、并减少显存占用与功耗。摩尔线程与硅基流动对底层驱动、算子库到推理引擎进行了全栈协同优化，让 MTT S5000 充分释放FP8硬件加速能力，有效满足大模型高并发、低时延的推理场景。

对行业来说，这一结果让国产替代路线更加明确：**高性能大模型不再必须依赖海外顶级芯片**。在全球算力供应链存在不确定性的当下，MTT S5000 搭配 DeepSeek V3 为金融、政务、能源等关键场景提供了性价比高、可信度强的本土化AI部署选择。

虽然在单纯峰值性能或软件生态成熟度方面，国产GPU与国际一线产品仍存在差距，但这次实测结果显示，**在特定、高价值的应用场景中，国产方案已经具备可落地的竞争力**。随着软硬件协同优化不断深化，中国AI基础设施的自主可控能力正在加速成形——从“可用”到“好用”，只差一遍又一遍这样的实测验证。