微软 Azure ND GB300 速率再破纪录：推理每秒达 110 万 token-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

微软最新披露，其 Azure ND GB300v6 虚拟机在 Meta 的 Llama2 70B 模型上跑出每秒 110 万 token 的推理速度，刷新行业纪录。微软 CEO 萨提亚·纳德拉在社交平台称：“这一成果得益于我们与英伟达的长期合作，以及在大规模生产环境运行 AI 的深厚经验。”

Azure ND GB300 虚拟机搭载英伟达 Blackwell Ultra GPU，对应 NVIDIA GB300 NVL72 系统架构，整机包含 72 个 NVIDIA Blackwell Ultra GPU 与 36 个 NVIDIA Grace CPU，采用单机架设计。该机型为推理场景做了专项优化，GPU 内存提升约 50%，热设计功耗（TDP）提高约 16%。

为验证性能提升，微软在一个 NVIDIA GB300 NVL72 域下的 18 台 ND GB300v6 虚拟机上运行 Llama2 70B（FP4 精度）模型，并使用 NVIDIA TensorRT-LLM 作为推理引擎。微软表示：“一个 NVL72 机架的 Azure ND GB300v6 实现了合计每秒 110 万个 token 的推理速度。”这一成绩超越了此前在 NVIDIA GB200 NVL72 机架上的每秒 865,000 个 token 的记录。

按系统配置折算，每颗 GPU 的推理速度约为每秒 15,200 个 token。微软同时公开了详细的测试流程、日志与结果，该数据已由独立第三方性能验证与基准测试机构 Signal65 认证。

Signal65 实验室副总裁拉斯·费洛斯在博客写道：“这一里程碑不仅跨过了每秒百万 token 的门槛，还在一个能满足现代企业弹性使用与数据治理需求的平台上实现。”他补充称，Azure ND GB300 相比上一代 NVIDIA GB200 推理性能提升 27%，而功率规格仅增加 17%。与 NVIDIA H100 相比，GB300 的推理性能几乎提升近 10 倍，机架级功率效率也接近提升到 2.5 倍。

划重点:

🚀 Azure ND GB300v6 虚拟机推理速度每秒 110 万 token，创造新纪录。

💻 配置 72 个 NVIDIA Blackwell Ultra GPU 与 36 个 NVIDIA Grace CPU，面向推理深度优化。

📈 相比上一代，推理性能提升 27%，机架级功率效率提升接近 2.5 倍。