IT之家 10 月 29 日消息,科技媒体 servethehome 昨日(10 月 28 日)发布博文,应 xAI 公司邀请,参观了 Colossus 全球最大 AI 训练集群。
IT之家曾于今年 9 月报道,xAI 在 Supermicro 的帮助下,在短短 122 天时间内搭建 10 万张英伟达 H100,而该公司计划未来将再翻倍增加 10 万张 GPU,其中 5 万张为更先进的 H200。
xAI Colossus 配备了英伟达 HGX H100 服务器,每台服务器内含 8 张 H100 GPU,所有服务器都在 Supermicro 的 4U水冷系统中运行,确保高效散热。
每个机架可容纳 8 台服务器,8 台服务器组成 1 个阵列,意味着每个阵列有 512 个 GPU。Colossus 集群内有超过 1,500 个 GPU 机架,支持高带宽的网络互联。
每个 GPU 配备 400GbE 的网络接口控制器,确保每台 HGX H100 服务器达到 3.6 Terabit 每秒的以太网带宽。
xAI 采用了 Supermicro 的 4U 通用 GPU 系统,这些系统具备先进的液冷技术,提升了散热效率,确保了高性能计算的稳定性。液冷设计使得系统在运行高负荷任务时,能够保持较低的温度,延长设备使用寿命。
此次展示获得了埃隆·马斯克及其团队的特别批准,由于构建全球最大 AI 集群的敏感性,部分内容在视频中进行了模糊处理,Supermicro 赞助了这次巡展,显示出其在行业中的重要地位。