芝能智芯出品
随着机器学习应用的迅猛发展,数据中心的电力需求呈现出前所未有的增长,特别是在大规模的批量同步训练工作负载下。
这些工作负载的功率波动模式与传统的数据中心有显著不同,因此在保证机器学习基础设施的可靠性和可用性方面面临巨大的挑战。
为了应对这一问题,Google提出了一种基于全栈协同设计的创新方法,通过主动电源整形和智能功率调节缓解大规模ML工作负载所带来的功率和热波动。
根据google提供的信息,来看看这一方法的实现原理、效果及其对行业的影响,并呼吁产业链各方共同合作,共同应对未来机器学习基础设施中电力和热波动的挑战。
Part 1
机器学习带来的功率挑战
与传统数据中心工作负载的“长尾分布”不同,ML训练任务具有强同步性。
数万个加速器需在同一时钟周期内执行矩阵运算,导致集群级功率需求呈现“脉冲式”特征,当所有TPU同时进入计算密集阶段时,功率瞬时拉升至峰值;
而在同步通信或数据加载阶段,功率骤降。这种波动幅度可达数十兆瓦,且频率极高(秒级周期重复),根源在于ML模型的训练机制:批处理数据分割、参数同步更新的迭代过程必然引发计算-通信交替的“锯齿形”功率曲线。
高幅度、高频次的功率波动对基础设施造成连锁反应,芯片最高温度可控,但频繁的温度波动(如20°C峰谷差)会引发热膨胀系数差异导致的机械应力,加速热界面材料老化,并加剧电迁移效应,铝互连线的电阻率随温度变化,导致电流密度重新分布,可能引发局部断路。
传统数据中心通过错峰调度平滑负载,但ML集群的功率脉冲可能触发电网保护机制(如过载跳闸)。若多个ML集群接入同一区域电网,其波动叠加可能超出变压器瞬时容量,导致区域性电压骤降甚至停电。
传统数据中心设计基于“平均功率”假设,依赖被动式散热(如风冷)和超配电路(允许短期过载)。然而,ML负载的功率密度(如30kW/机架)和波动速度远超传统场景。
风冷系统响应延迟约为分钟级,无法匹配秒级温度波动;超配设计的冗余容量被ML负载持续占满,失去缓冲作用,迫使基础设施进入“硬约束”模式,进一步限制ML任务吞吐量。
这些问题不仅影响数据中心的稳定性和长期运行,还可能导致运营成本的增加,在新兴的机器学习应用环境中,如何有效管理功率和热波动已成为提升数据中心效能和可持续性的一项关键任务。
Part 2
Google的
全栈协同设计解决方案
为了应对这些挑战,Google提出了一种创新的解决方案,通过全栈协同设计来主动调节工作负载的功率分布,从而缓解功率和热波动,结合了从硬件(如TPU加速器)到数据中心基础设施的多个层面的优化,使得功率波动得到有效的管理。
Google在其Tensor Processing Unit(TPU)编译器中加入了仪器化功能,以监测与功率波动相关的工作负载特征,特别是同步标志。
通过动态平衡TPU计算块的活动,Google能够平滑计算负载的分布,从而减缓功率波动的幅度,显著减少功率波动,还能够控制系统的温度波动,避免因热量不均而引发硬件故障。
Google的核心创新在于将功率管理前移至编译阶段。TPU编译器通过静态代码分析识别计算-通信边界(如AllReduce操作),并插入“功率平滑指令”。例如,在同步通信阶段,编译器可动态调度计算块的激活时序,使部分TPU核心提前进入低功耗状态,而非瞬时全部关闭。
此举将功率下降斜率从垂直陡降改为渐进式过渡,避免电网侧出现电流冲击。在测试中,功率波动幅度从基线情况下降低了近50%,温度波动幅度也从约20℃降至约10℃。
为了实现这一目标,系统的平均功耗略有增加,但性能影响几乎可以忽略不计,这一方法在降低功率波动和温度波动方面的高效性。
这种全栈协同设计的优势在于,通过从硬件到软件的紧密配合,能够在不显著牺牲性能的情况下,显著降低功率和热波动的影响。
更重要的是,这种方法具有高度的可扩展性,可以在大规模数据中心中得到广泛应用,并且能够与其他节能技术协同工作,如水冷、垂直电力输送等。
● 全栈方法的关键在于打通芯片-机架-数据中心的控制环路:
◎芯片级:集成温度传感器与DVFS(动态电压频率调节)联动,当检测到局部热点时,优先迁移计算任务至低温区域,而非全局降频。
◎机架级:引入RLCB(机架级电容组)作为“波动缓冲器”,在秒级时间尺度吸收/释放电能,平滑上游供电压力。
◎数据中心级:水冷系统与负载调度协同,例如在功率峰值期优先冷却高负载区域,并通过工作负载迁移实现热均衡。
● Google 的方案并非单纯追求技术最优,而是兼顾成本与行业协同
◎通过编译器优化使性能代价可控,任务执行时间增加
◎在硬件兼容性上,TPU 定制化设计利于编译器优化的同时,借助 OCP 推动标准化接口(如 RLCB 规格)让其他厂商可复用部分模块;
◎在软件生态扩展方面,向 ML 框架(如 TensorFlow)开放功耗 API,允许开发者定义任务优先级以实现 “能效感知” 的模型训练。
● 人工智能的算力的指数级增长已使单点技术创新难以应对系统性风险,全栈方法揭示了两大趋势:
◎其一,算力效率的竞争正从“峰值性能”转向“可持续性能”,需在硬件设计、软件调度、能源供给间实现全局最优;
◎其二,基础设施可靠性成为ML模型迭代的隐形瓶颈,电热波动可能直接制约模型训练周期与成本。
电力公司需重新定义电网容限标准,硬件供应商应开发抗波动元件(如宽温域电容),开发者需将“功率效率”纳入模型评估指标,通过OCP推动的开放标准,或将成为下一代绿色算力基础设施的基石。
小结
大规模同步的训练工作负载在电力和热管理方面提出了新的挑战,基于全栈协同设计的主动电源整形方法,通过优化硬件与软件的协同作用,成功减缓了功率波动和温度波动,提高了系统的可靠性和能源效率。