AI大模型时代,大模型参数量和训练集规模大幅增加,仅靠GPU芯片单体算力的提升已经不能满足需求,业界目光正从单体算力转向了系统架构层面的创新。其中,底层核心技术网络,成为关键突破口,全球各大公司纷纷进行相关产品技术的研发。AI网络技术的角逐正在展开。在近日举办的“2024开放计算中国峰会”上,英伟达网络高级总监宋庆春介绍了AI网络的四大关键技术:端到端的RDMA流量动态路由、AI云上AI业务的性能隔离、网络计算和网络数字孪生。
为了帮助客户在云环境中构建生成式AI或AI工作负载,提升网络性能,英伟达推出了新的网络平台,即加速以太网平台NVIDIA Spectrum-X。Spectrum-X平台并非是一个单产品的形态,而是涉及到Spectrum-4以太网交换机、BlueField-3 DPU、LinkX 线缆及模块和相关软件,能够为生成式AI在云端提供规模化的能力。
Spectrum-X的创新点有很多,动态路由就是其中之一。当前国内数据中心中,通用算力仍占算力资源的绝大多数。但是随着应用场景的变化,生成式AI云将成为数据中心发展的新趋势。生成式AI云需要有很强的算力和云的灵活性。为了解决问题,英伟达推出面向AI的以太网络,针对AI业务进行端到端的优化。端到端的RDMA流量动态路由可以让网络传输效率相比传统的以太网络提升1.6倍,实现端网协同,提升网络拥塞问题。RDMA技术可以通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和上下文切换的开销,因而能解放内存带宽和CPU周期用于改进应用系统性能。
性能隔离技术也很重要。AI云上往往出现多个租户同时运行应用程序的情况,而且每个租户又有可能运行多个任务。 如何让多个任务相互隔离,且不仅任务之间相互隔离,运行任务的时候性能也相互隔离,每个任务都能实现和运行单一任务一样的性能?这就需要用到性能隔离技术。该技术基于先进的拥塞控制技术,解决了由于一个AI应用的突发式的Incast通信造成的网络拥塞影响其它应用性能的问题,避免了牺牲流在云上的出现。这个技术在InfiniBand上多年以前就实现了,英伟达把性能隔离技术移植到Spectrum-X平台,实现了以太网云上的业务性能隔离。
网络计算则是指通过计算机网络进行计算的方式,它将计算任务分配给多个网络节点,并协同完成计算任务。网络计算的特点则主要体现在其分布式和协同性。在数据存储方面,网络计算将数据分散存储在多个节点上,这就使得数据更加安全可靠,且能够更好地应对并发访问。在传输技术方面,网络计算采用高速数据传输技术,使得大规模数据的处理和传输变得更加高效。生成式AI云往往面临资源利用率问题、长尾问题、多任务问题,网络计算可以有效解决。
网络数字孪生是物理网络的虚拟表述,基于数据、模型和接口对物理网络进行分析、诊断、仿真和控制,从而实现与物理网络之间的实时交互映射。借助数字孪生网络平台,运营商可以很好地模拟、选择、优化解决方案,最终将它们部署到实际网络中,这将降低对实际网络的影响,减少一定的安全风险。同时,数字孪生网络结合大数据处理和建模技术可实现对现状的评估、对过去的诊断和对未来的预测,模拟各种可能性,提供更全面的决策分析,有助于网络实现预测性运维。现在的AI云规模通常都很大,投入也非常大。 如果直接构建一个物理的系统,在物理系统上做Debug的成本非常高。 先构建AI数据中心的数字孪生虚拟数据中心,预先进行配置、调试、优化、测试,可以有效降低成本。