人工智能尤其是AIGC生成式人工智能的兴起,使得数据中心的格局发生了重要演变,以英伟达GPU计算集群为核心驱动力的智算中心(AI DC)迅速崛起。
和传统数据中心相比,智算中心不仅注重服务器内部GPU之间的内部连接,更注重大量的服务器间的外部连接,设备间的大吞吐量需求激增,这就对网络和布线系统提出了严苛的要求。作为实现智算中心互联互通的关键组成部分,网络布线面临着严峻的挑战。
在康普企业网络大中华区技术总监吴健看来,挑战主要集中在三个层面:网络带宽,延时还有能耗。智算中心网络无疑正向着高带宽、低延时、低功耗等方向发展,同时,高可靠性和高弹性也是重要趋势。
康普企业网络大中华区总经理兼副总裁陈岚
那么,该如何去评判布线系统是否优质,以及这里面的标准是什么?围绕这个疑问,康普企业网络大中华区总经理兼副总裁陈岚和吴健一起,在主题为《智算中心网络架构与布线设计》的分享会上,详尽阐述了优质的布线系统应该是什么样的,以及企业该如何去评判和选择。
智算时代的高带宽标准
布线系统的评价体系中,首当其冲的自然就是带宽。AI需要大量的算力和快速的连接,因为算力和网络连接能力之间是协同互动的。
康普企业网络大中华区技术总监吴健
智算服务器可以满配8张GPU卡,它们之间的内部带宽可达900 Gbps,而要匹配上如此之高的内部带宽,外部服务器间的连接带宽也要得到足够的保证,那具体需要多少呢?“英伟达GPU基于强大的并行计算,而这种并行计算需要400 Gbps甚至800 Gbps的外部带宽支持“,吴健表示。
可以说,智算中心机架间的布线需求大大推进了400 Gbps和800 Gbps的应用进程,而以AI目前的发展态势,超高速带宽标准1.6 Tbps也在蓄势待发,投入应用也只是时间问题,这就为高性能光纤光缆提供了巨大空间。
Propel平台的模块化架构
陈岚介绍到,综合布线系统是基础设施中的基础设施,”康普拥有高性能高速率的光纤以及MPO等高密度的连接器件,且已经为400 Gbps和800 Gbps做好了准备。”
康普高速光纤平台Propel
吴健则重点介绍了康普高速光纤平台Propel。他表示,Propel平台正是为应对智算时代的种种挑战而构建的。其可以帮助客户搭建高兼容性的可拓展框架,一开始满足400 Gbps需求,而未来可无缝迁移到800 Gbps乃至1.6 Tbps,顺利完成平滑过渡。
而这种高度扩展性与其模块化的架构密不可分。Propel支持双工、四通道和八通道部署,以实现轻松扩展,预端接选项可最大程度减少现场出错,并节省时间。另外,Propel还可节省规划和部署的时间,确保光学性能和灵活性,以便快速调整配置。
兼容InfiniBand和RoCE
吴健还特别提到,康普布线系统可同时支持目前高性能计算集群所采用的两种网络技术,英伟达旗下的InfiniBand和高速以太网RoCE。前者和英伟达深度绑定,性能更强,ChatGPT为代表的AI大模型就是英伟达公司基于InfiniBand构建的。
但其相对成本也更高,高速以太网RoCE的性价比更为突出,传输性能距离InfiniBand也并不太远,比如两者的传输速率都在向800 Gbps和1.6 Tbps发展。
低时延和高可靠性的实现
Propel还具有低延时和高可靠性的特性。为什么低延时如此重要?这是因为,机器学习算法对链路延迟极为敏感。来自英伟达的内部统计表明,大模型训练有高达30%的时间花在了网络延迟上。训练大模型的成本本来就十分高昂,一旦出现网络延迟,就意味着一笔巨大的折损费用。同时,“GPU的利用率也会明显下降”,吴健介绍到。
而确保低延时的一个重要方案是使用高速多模收发器。因为它更适合数据中心的短距离连接,可以有效降低延时。同时,随着传输数据的提升,多模光纤也从最早的OM1逐步演进到带宽更大的OM5光纤。
高可靠性则体现在光模块和MPO线缆的品质,高品质可以保证数据在高速传输过程中不丢包。RDMA的丢包重传机制导致带宽利用率快速降低,当丢包率达到0.1%时,训练效率会显著下降。对此,拥有优异光学性能的Propel就有了施展的舞台。
Propel具有精准的接头抛光、先进的光纤对准以及良好的工艺一致性,有利于提高工厂效率,保持一致的高产品质量和清洁度。从而实现连接灵活性,扩展应用的距离。“在智算时代,不允许出现任何丢包和损耗”,吴健强调。
低功耗的成本效益
吴健还特别强调了康普布线系统的低功耗特性。功耗是什么,是发热量的元凶,是绿色节能的拦路虎,同时也是巨大的成本杀手。我们刚刚提到了多模光纤的低延时特性,实际上低功耗特性也是由它而来。
高速多模收发器的功耗比单模收发器要明显少。吴健举例到,一个400 Gbps的多模网卡大概是8瓦的能耗,而一个400 Gbps的单模网卡大概是12瓦,差了30%左右。对于大规模的AI集群,这个数量值就更可观。NVIDIA的典型集群中,单个AI集群具有768个收发器,使用多模光纤的设置将节省不菲的功率。
这意味着,训练成本和运营支出也大幅降低了。陈岚进一步强调,低功耗和节能环保息息相关,而要做到这一点,结构化布线非常重要,“虽然初次成本稍微高一点,但后续升级、扩展、维护的成本很低,并且生命周期很长。“
结语
作为基础设施中的基础设施,综合布线对于智算中心有着举足轻重的作用。康普作为全球网络布线的领导者,以其丰富的解决方案和数字化管理工具,在智算时代,高效满足高密度、高带宽、低延迟、无损耗的算力传输需求,提高交付与运维管理效率。
目前,康普公司已拥有完备的综合布线、蜂窝无线网络和Wi-Fi无线解决方案,每年投入6亿美元研发经费。正是凭借持续的研发投入和客户的持续青睐,康普已取得1.3万项专利,并荣登美国财富500强之列。