在最新公布的 SemiAnalysis InferenceMAX 基准测试中,Signal65 对 Deepseek-R1 0528 混合专家(MoE)模型的推理做了评估。结果显示,英伟达(NVIDIA)GB200 NVL72 机架系统在同等规模下远超 AMD Instinct MI355X 集群。MoE 的核心是按任务只启用最合适的“专家”,效率更高,但在大规模扩展时,节点之间的通信延迟和带宽压力会增大,容易成为计算瓶颈。
英伟达通过“极致协同设计”思路重构了 GB200 NVL72 的架构。该系统将 72 颗芯片紧密互联,并提供高达 30TB 的共享内存,显著提升数据传输效率,降低延迟。测试表明,在相近配置下,单 GPU 吞吐可达 75 tokens / 秒,整体性能相比 AMD MI355X 提升达 28 倍。
对于超大规模云服务商而言,整体拥有成本(TCO)至关重要。Signal65 结合 Oracle 云定价指出,GB200 NVL72 不仅跑得快,性价比也很高:每个 token 的相对费用仅为 AMD 方案的 1/15,同时还能带来更好的交互体验。
尽管英伟达在混合专家模型上占据优势,AMD 也有自己的长处。报告提到,MI355X 凭借更大的 HBM3e 内存容量,在稠密模型场景中依旧具备竞争力。当前,AMD 还未推出能正面对抗 GB200 NVL72 的新机架级解决方案。但随着 AMD Helios 平台与英伟达 Vera Rubin 平台的竞争升温,未来在机架级扩展上的较量会更为激烈。
划重点:
🟢 英伟达 GB200 NVL72 性能是 AMD MI355X 的 28 倍,优势明显。
🟢 通过优化架构与高速共享内存,GB200 NVL72 有效缓解数据传输延迟。
🟢 英伟达领先的同时,AMD 在稠密模型仍具优势,后续竞争值得关注。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?