微软 Azure ND GB300 速率再破纪录:推理每秒达 110 万 token

微软最新披露,其 Azure ND GB300v6 虚拟机在 Meta 的 Llama2 70B 模型上跑出每秒 110 万 token 的推理速度,刷新行业纪录。微软 CEO 萨提亚·纳德拉在社交平台称:“这一成果得益于我们与英伟达的长期合作,以及在大规模生产环境运行 AI 的深厚经验。”

微软

Azure ND GB300 虚拟机搭载英伟达 Blackwell Ultra GPU,对应 NVIDIA GB300 NVL72 系统架构,整机包含 72 个 NVIDIA Blackwell Ultra GPU 与 36 个 NVIDIA Grace CPU,采用单机架设计。该机型为推理场景做了专项优化,GPU 内存提升约 50%,热设计功耗(TDP)提高约 16%。

为验证性能提升,微软在一个 NVIDIA GB300 NVL72 域下的 18 台 ND GB300v6 虚拟机上运行 Llama2 70B(FP4 精度)模型,并使用 NVIDIA TensorRT-LLM 作为推理引擎。微软表示:“一个 NVL72 机架的 Azure ND GB300v6 实现了合计每秒 110 万个 token 的推理速度。”这一成绩超越了此前在 NVIDIA GB200 NVL72 机架上的每秒 865,000 个 token 的记录。

按系统配置折算,每颗 GPU 的推理速度约为每秒 15,200 个 token。微软同时公开了详细的测试流程、日志与结果,该数据已由独立第三方性能验证与基准测试机构 Signal65 认证。

Signal65 实验室副总裁拉斯·费洛斯在博客写道:“这一里程碑不仅跨过了每秒百万 token 的门槛,还在一个能满足现代企业弹性使用与数据治理需求的平台上实现。”他补充称,Azure ND GB300 相比上一代 NVIDIA GB200 推理性能提升 27%,而功率规格仅增加 17%。与 NVIDIA H100 相比,GB300 的推理性能几乎提升近 10 倍,机架级功率效率也接近提升到 2.5 倍。

划重点:  

🚀 Azure ND GB300v6 虚拟机推理速度每秒 110 万 token,创造新纪录。  

💻 配置 72 个 NVIDIA Blackwell Ultra GPU 与 36 个 NVIDIA Grace CPU,面向推理深度优化。  

📈 相比上一代,推理性能提升 27%,机架级功率效率提升接近 2.5 倍。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享