微软最新披露,其 Azure ND GB300v6 虚拟机在 Meta 的 Llama2 70B 模型上跑出每秒 110 万 token 的推理速度,刷新行业纪录。微软 CEO 萨提亚·纳德拉在社交平台称:“这一成果得益于我们与英伟达的长期合作,以及在大规模生产环境运行 AI 的深厚经验。”

Azure ND GB300 虚拟机搭载英伟达 Blackwell Ultra GPU,对应 NVIDIA GB300 NVL72 系统架构,整机包含 72 个 NVIDIA Blackwell Ultra GPU 与 36 个 NVIDIA Grace CPU,采用单机架设计。该机型为推理场景做了专项优化,GPU 内存提升约 50%,热设计功耗(TDP)提高约 16%。
为验证性能提升,微软在一个 NVIDIA GB300 NVL72 域下的 18 台 ND GB300v6 虚拟机上运行 Llama2 70B(FP4 精度)模型,并使用 NVIDIA TensorRT-LLM 作为推理引擎。微软表示:“一个 NVL72 机架的 Azure ND GB300v6 实现了合计每秒 110 万个 token 的推理速度。”这一成绩超越了此前在 NVIDIA GB200 NVL72 机架上的每秒 865,000 个 token 的记录。
按系统配置折算,每颗 GPU 的推理速度约为每秒 15,200 个 token。微软同时公开了详细的测试流程、日志与结果,该数据已由独立第三方性能验证与基准测试机构 Signal65 认证。
Signal65 实验室副总裁拉斯·费洛斯在博客写道:“这一里程碑不仅跨过了每秒百万 token 的门槛,还在一个能满足现代企业弹性使用与数据治理需求的平台上实现。”他补充称,Azure ND GB300 相比上一代 NVIDIA GB200 推理性能提升 27%,而功率规格仅增加 17%。与 NVIDIA H100 相比,GB300 的推理性能几乎提升近 10 倍,机架级功率效率也接近提升到 2.5 倍。
划重点:
🚀 Azure ND GB300v6 虚拟机推理速度每秒 110 万 token,创造新纪录。
💻 配置 72 个 NVIDIA Blackwell Ultra GPU 与 36 个 NVIDIA Grace CPU,面向推理深度优化。
📈 相比上一代,推理性能提升 27%,机架级功率效率提升接近 2.5 倍。
                    














用户38505528 1个月前0 
粘贴不了啊用户12648782 2个月前0 
用法杂不对呢?yfarer 2个月前0 
草稿id无法下载,是什么问题?