AI时代的算力、算法和数据处在一种螺旋式的提升关系中,虽然芯片制程和计算性能的提升,使得对算力的渴求不像以前那样迫切,但当算法普及和数据累积达到一个新的程度时,原来的算力又不够了,成为AI性能提升的硬指标。
2019年5月初,AMD度过了自己的50岁生日。创办50年来,它已经成长全球唯一一个拥有高性能CPU和GPU芯片的半导体公司。也是在2019年,AMD推出了7nm Zen2架构的新一代霄龙/锐龙处理器,这是21世纪以来继64位K8之后AMD最重要的CPU升级之一。
在7nm Zen2架构处理器上,AMD再次将CPU性能和核心数量提升到了一个新纪录上。相比上一代Zen架构,单核心IPC性能提升15%,相当可观;核心数量更是直接翻番,第二代EPYC处理器以8的倍数从8核、16核……到48核,以及最高的64核128线程,可谓豪华。得益于EPYC的设计下放到消费级产品,主流桌面锐龙也做到了16核32线程,HEDT发烧平台做到了24核、32核乃至64核128线程。
在7nm Zen2发布之后,有分析师评价说,这是AMD 50年来首次在架构及工艺上同时领先对手,这在以前是没有过的。
AMD CEO苏姿丰在去年的发布会上表态,AMD已经变了,得益于一系列技术及产品突破,AMD从大家印象中的市场导向型企业变成了技术导向型企业,并且是“技术领导”型企业。
从2017年正式重返高性能计算领域,在2年时间里AMD经过三代锐龙、两代霄龙处理器的发展,就站上了高性能计算领域的制高点,他们是怎么做到的呢?
7nm Zen2创新制胜:x86首发小芯片设计 64核128线程破纪录
在AMD推出Zen架构处理器之前,x86 CPU行业的发展已经停滞多年了。单核性能多年没有明显提升,多核也没有明显变化,桌面市场10年间都是最多4核8线程,服务器市场还停留在20+核心时代,业界无奈称之为“挤牙膏”,这严重阻碍了x86行业的发展。
AMD在第一代Zen上取得了突破,IPC性能大涨52%不说,还顺手将CPU核心数量提升了一倍,桌面普及8核16线程,EPYC霄龙处理器也做到了32核64线程,多任务性能轻松碾压对手的CPU。
在7nm Zen2处理器上,AMD又实现了一次性能突破,大胆放弃了传统设计思路,首次在x86行业使用了chiplets小芯片设计,CPU计算核心与IO核心分离,核心数翻倍,最多64核128线程,再一次将CPU计算性能推向了新高潮。
以第二代EPYC为例,它的64核架构实际上就是1+8模块组成的。中间最大的那个是IO核心,称为IOD(IO Die),使用了12nm工艺制造,根据需要集成了不同数量的DDR主控、PCIe主控、IF总线等IO单元,EPYC版的IOD核心面积416mm2,集成340亿晶体管。
IO核心周围的8个模块则是CPU核心,7nm工艺制造,成为CCD(Core Chiplet Die),每个CCD中有8核16线程CPU,面积74mm2,集成38亿晶体管。
这样一来,AMD在设计EPYC处理器的时候就有足够的灵活性,好像搭积木那样堆出不同核心的EPYC处理器,以8的倍数,从8核到64核CPU只需考虑不同的IO核心及CCD核心搭配即可。
这种巧妙的设计不仅赋予了第二代AMD EPYC处理器灵活性,还大幅降低了成本。根据AMD的测算,核心数越多,成本优势就越明显,64核7nm锐龙作为100%基准的话,那么48核的成本就是0.9,而原生48核设计的成本至少是1.9,比小芯片设计高太多了,几乎翻倍。
当然,最重要的一点还有,在第二代EPYC处理器多核性能再次翻倍的同时,单核性能并没有止步,通过7nm工艺及架构改进,AMD在Zen2上实现了15%的IPC性能提升,Cinebench基准测试中实际提升20%以上。
总之,AMD的64核EPYC处理器凭借7nm Zen2巧妙、灵活的架构设计,再次将高性能计算能力翻倍,从发布到现在已经打破了至少140项世界计算纪录,并且还在持续不断地提升中。
EPYC高性能计算成功之道:把握技术趋势、敢于创新
为何EPYC处理器能够取得这样的成功,2011年进入AMD公司、2014年担任CEO的苏姿丰(Lisa Su)是最有发言权的。此前,对半导体行业另一个巨头英特尔来说,发展是遵循其著名的Tick-Tock战略的,要么提升芯片制造工艺,要么更新设计架构。
对AMD来说,他们急需一次爆发,因此公司决定双管齐下,创造一个全新的产品组合。
苏姿丰说服了客户,花费数年时间打造出了这一代7nm Zen2架构的处理器。在友商仍然使用14nm工艺的情况下,AMD在升级架构的同时,上马最先进的7nm工艺无疑是有极大风险的,但最后事实证明AMD“赌对了”。
对AMD来说,过去几年最大的收获就是他们成功制定并实施了新一代路线图,从2017年的14nm Zen架构开始,AMD在工艺、架构上就保持着同步升级的节奏,改变了业界Tick-Tock两年升级一次的惯例。
按照路线图发展下去,2020年AMD还会推出7nm工艺的Zen3架构的处理器,首发于第三代EPYC处理器 “Milan” (米兰)中,今年底应该就会上市了。
再往后,AMD也正式宣布了5nm工艺的Zen4架构,同样会首先应用于第四代EPYC处理器“Genoa”(热那亚)中。
AI时代来临 高性能计算新篇章开启
凭借7nm Zen2强劲的性能表现,AMD赢得了顶级超算的青睐。AMD先后宣布了新一代E级超级计算机 Frontier和El Capitan,预期峰值处理能力分别为150亿亿次FLOPS和200亿亿次FLOPS以上,计划分别于2021年和2023年交付,后者有望在交付后成为世界上速度最快的超级计算机。
Frontier将采用下一代EPYC,建成后,通过大幅提升大规模人工智能、数据分析和模拟的性能来实现科学突破,帮助科学家开展更多计算。
在Frontier创新成果的基础上,El Capitan采用代号为“Genoa”(热那亚)的下一代 AMD EPYC处理器以及针对高性能计算和AI工作负载而优化的新型架构的下一代 Radeon Instinct GPU。前者将基于“Zen 4”处理器核心来支持下一代内存和 I/O 子系统,从而更好地服务于 AI 和高性能计算工作负载,后者将采用下一代高带宽内存以实现出色的深度学习性能。El Capitan这样的设计将在 AI 和机器学习数据分析方面实现飞跃。
接下来的高性能计算该如何发展?从Zen2来看,人们对CPU单核及多核心的性能要求已经达到一个比较满意的地步,现在更关键的是如何利用好这些多核CPU的性能。最有希望的领域应该是AI人工智能了,AI时代的算力、算法和数据交替上升,对更高算力的需求永不停歇,成为AI性能提升的硬指标。
上面提到的Frontier超算性能轻易就达到了目前排名第一的超算系统Summit的7倍水平,而El Capitan的计算能力则更高。
AMD CEO苏姿丰前不久接受采访时就透露了这方面的信息,她举了一个前景很诱人的例子,那就是AI人工智能相关的语音识别,目前处理器文本信息不需要多强的CPU性能,但语音识别这样的应用场景现在多是靠后台的数据中心运算的。
如果超算技术下放到消费级产品上,那么语音识别等应用就可以利用本地的处理器来计算,这样速度、效率就会好很多。
根据苏姿丰的预测,EPYC处理器所代表的高性能计算会在未来5到10年里深刻影响我们的生活,不仅仅是推动数据中心领域的高性能计算发展,还会进一步促进与消费级产品的融合,特别是在AI技术飞速发展的过程中,无处不在的澎湃算力都是最关键的。