微软打造跨洲数据中心“超级”集群,助力大规模 AI 模型训练

最近,微软透露正建设一批跨越多个洲的数据中心超级集群,以满足未来人工智能模型训练的需求。这些新设施将通过高速网络把多座数据中心连接起来,实现高效的数据传输,目标是支持参数规模达到数百万亿级的 AI 模型训练。

10月,微软在威斯康星州 Mount Pleasant 的数据中心园区启用首个节点,并连接到位于乔治亚州亚特兰大的设施。这些数据中心并非普通机房,微软称之为“Fairwater”集群。它们为两层建筑,采用直连芯片的液体冷却技术,几乎不消耗水资源。接下来,微软计划把这些集群扩展到数十万台、不同类型的 GPU,以应对多样化的工作负载。

通过互联数据中心,微软不仅能训练更大规模的模型,还能在土地成本较低、气候适宜、能源充足的地区建设新设施。虽然微软尚未公布连接这两座数据中心的具体技术,但业内已有多种方案可选,例如 Cisco 的 51.2Tbps 路由器和 Broadcom 的新款 Jericho4 硬件,这些设备能够高效连接相距约 1000 公里的数据中心。

与此同时,Nvidia 也在积极推进网络技术,以满足 AI 训练的需要。微软在高性能计算环境中普遍采用 Nvidia 的 InfiniBand 网络协议,体现了其对高效数据传输的重视。在 AI 工作负载的分布上,如何减少带宽占用和时延,仍是研究者们关注的重点。

AI 领域的进展也十分明显。此前,谷歌 DeepMind 团队发布报告称,通过在训练过程中压缩模型,并合理安排数据中心之间的通信,可以克服不少挑战。

划重点:

🌐 微软正在搭建跨洲数据中心超级集群,面向未来超大规模 AI 训练。

💧 新设施采用高效液体冷却方案,几乎不耗水。

🚀 将借助多种先进网络技术联通数据中心,提升 AI 训练效率。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享