一年一度的 IEEE Hot Chips 落下了帷幕。在这个为期两天的半导体技术披露活动中,各大项目背后的工程师们展示了来自「几乎」整个行业的最新技术。
(来源:Hot Chips 33)
科技行业是否过度关注 AI ?确实如此,但在某种程度上,AI 几乎无处不在。每个人都知道 AI 在未来几年对于商业应用来说将是一件大事,因此,各大企业加大在 AI 芯片上的研发也并不奇怪。
本届 Hot Chips 33 会议上,除了 IBM、三星、高通等芯片制造巨头向世界展示了他们最新一代的芯片以外,还有台积电分享最先进的 3D 封装技术、Synopsys CEO 谈 AI 设计的芯片、Cerepas 研发出世界上最大的芯片等诸多亮点。
本文将带你一一回顾这些 AI 芯片的热点内容,并为你讲述在这颗世界上最大的芯片的背后,台积电、Synopsys 和 Cerepas 之间的故事。
对标英伟达,英特尔带来下一代 CPU 和 GPU
Intel 展示了下一代「Saphire Rapids」至强处理器、用于客户端平台的 Alder Lake,以及即将推出的计划用于超级计算机的 Ponte Vecchio GPU。Ponte Vecchio 具有不错的 AI 性能,将与英伟达竞争,但鉴于英伟达在人工智能生态系统中的领先地位,英伟达在 AI 的地位仍然不受威胁;Sapphire Rapids 定位为继续保持数据中心推理处理器领域的领先地位。
英特尔的现状以及 Ponte Vecchio 的发展方向。蓝线是英特尔,绿线是英伟达。(来源:nextplatform.com)AMD 推出第三代「霄龙」处理器,技嘉用高通 AI 芯片打造「霄龙」服务器
正如预期的那样,AMD 宣布了该公司的第三代「霄龙」(EPYC)服务器处理器,声称其性能是英特尔具有竞争力的至强芯片的两倍,并将 AI 推理处理中使用的 8 位整数运算的性能提高了一倍,进一步扩展了 AMD 在服务器 CPU 方面相对于 Intel 的领先地位。
技嘉新推出的服务器。(来源:Qualcomm)
与此同时,技嘉和高通宣布了一款新的 AI 服务器,其中包含 2 个 EPYC 和 16 个 Cloud AI100,整个服务器可以超过 100 POPS(每秒一千万亿次操作),比现有的任何服务器的算力都要高出 10 倍。高通也在大会上分享了更多关于 Cloud AI100 的细节,可以看出其对进军数据中心的热情。
IBM 推出芯片内加速型人工智能处理器 Telum
IBM 在大会上展示了 IBM Telum 的预览版,IBM Telum 是 IBM z 和 LinuxONE 系统的下一代处理器,计划于 2022 年上半年推出。公布的亮点包括预期的性能提升、新的缓存设计以及专为实时嵌入式人工智能(AI)设计的集成加速器。
「Telum」z16 处理器有 225 亿个晶体管,其大约三分之一区域的逻辑块是由 IBM Research 开发的第三代 AI Core 推理加速器,每个加速器都可以从两个独立的计算阵列为每个芯片提供 6 TFLOP 的算力,一个面向矩阵运算,另一个面向激活函数。每当内核切换到 AI 模式时,它就会获得整个加速器的计算能力来执行 AI 任务。
「Telum」z16 芯片的设计更加流线型。(来源:nextplatform.com)
嵌入的 AI 加速器具有智能预娶回写控制器、大型暂存器和由微核控制的数据缓冲区,以确保有效利用计算能力。智能数据移动器控制数据流,以大约 100GB/s 的带宽传输数据;在内部,这些数据可以从暂存器分发到超过 600GB/s 带宽的计算引擎,从而提供低延迟和高带宽的 AI 能力。
IBM 模拟了一个信用卡欺诈应用程序的性能。(来源:nextplatform.com)
实际应用方面,IBM 已与多家客户合作以验证将实时深度学习引入响应时间敏感的事务性工作这一设计目标。在与一家全球银行共同开发的用于信用卡欺诈检测的 RNN 模型中,单个 Telum 芯片上运行该模型每秒可实现超过 10 万个推理任务,延迟仅为 1.1 毫秒;扩展到 22 个芯片,每秒实现了 350 万次推理,延迟仍然很低,仅为 1.2 毫秒。
三星下一代 HBM3 和 DDR5 内存将内置 AI 处理功能
三星在大会上宣传其在内存处理(PIM)技术方面的最新进展,并称将 AI 功能注入到下一代 HBM3 和 DRR5 内存产品中。PIM 能够通过将可编程计算单元(PCU)的 AI 引擎集成到内存核中来处理某些逻辑函数,加速内存的 AI 功能。
三星通过在高带宽内存(HBM)配置中集成内存处理(PIM),加速了 AI 的功能。(来源:hothardwire.com)
其实早在今年 2 月份,三星就推出了业界首款集成了内存处理的高带宽内存(HBM-PIM)产品 Aquabolt-XL,并在 Xilinx Virtex Ultrascale+ (Alveo) AI 加速器中进行了测试。该公司声称系统性能提升了近 2 倍,同时能耗降低了 70%。
Synopsys CEO:AI 设计的芯片将在 10 年内性能提升 1000 倍
如今很多人都听说过摩尔定律,即每两年芯片性能翻一番。今年大会上,Synopsys CEO Aart de Geus 就 AI 改进芯片设计进行了主题演讲。他认为,AI 设计的芯片正在产生巨大的成果,可能会在未来十年内使芯片的性能提高 1000 倍,帮助芯片行业突破摩尔定律。
Synopsys 看到了在十年内将性能提高 1,000 倍的途径。(来源:Synopsys)
De Geus 于 1986 年创立了电子设计自动化(EDA)软件公司 Synopsys,并在去年首次推出了设计空间优化软件 DSO.ai。该软件最初能够优化芯片平面图中的布局布线,但该公司正对其进行扩展,用综合方法进行自主芯片设计,利用强化学习同时优化功率、性能和面积,而不仅仅是简单的物理布局优化。
「DSO 的不同之处在于,它不适用于单个设计步骤,而是适用于整个设计流程。」它将解决针对特定应用程序或系统的所有维度的快速芯片定制,包括硬件(物理)、软件(功能)、可制造性和架构(形式)。
EDA 在芯片设计的新时代中有所不同。(来源:Synopsys)
在实际应用方面,包括三星在内的芯片制造企业对外宣布使用 DSO.ai 已经为他们带来了一定的效益。尽管谷歌团队在过去的两年中也多次报告将 AI 扩展到芯片设计自动化中的努力,并且这一赛道上还存在 Cadence 等多家公司的竞争,但不可否认的是,DSO.ai 使 Synopsys 已经处于一定的领先地位。
Cerepas 推出世界最大芯片集群 CS-2 可实现大脑级 AI 模型
随着 GPT-3 等大规模预训练模型愈演愈烈,Cerepas Systems 也坚定不移地走在研发世界上最大的芯片这条道路上。Cerepas 在会上表示,新推出的 CS-2 AI计算机单个就可以处理 120 万亿个参数的 AI 模型,理论上能够击败拥有 100 万亿个突触连接的人脑。
Cerepas 发布的新的交换机产品 SwarmX 和内存计算机 MemoryX。(来源:zdnet.com)
Cerepas 还介绍了 CS-2 中用到的一系列行业首创技术,包括世界上最大的芯片 WSE-2、包含 2.4 PB 的 DRAM 闪存和 NAND 内存的片外内存盒 MemoryX、可以将多达 192 台 CS-2 机器连接到 MemoryX 成为一个集群的 SwarmX 技术。
Cerepas WSE-2 芯片和最大的 GPU 对比。(来源:wired.com)
WSE-2 芯片是世界上最大的 AI 芯片,有 2.6 万亿个晶体管、85 万个处理单元,而一个 GPU 通常只有 540 亿个晶体管、几百个处理单元。该芯片采用 7nm 工艺,却有平板电脑那么大,并保持了世界最快单芯片处理器记录。
在实际应用方面,需要超级计算能力的实验室已经采用了 Cerepas 的芯片。早期客户包括阿贡国家实验室、葛兰素史克和阿斯利康等制药公司。ScienceAI 也有过关于生物制药公司 Peptilogics 使用 Cerepas 芯片的报道。
另外,Cerepas 也透露已经与 OpenAI 的工程师进行了交谈,计划通过瞄准大规模自然语言处理的新兴市场进行扩张。
(来源:The New Yorker)
最后,我们来讲一下这颗世界上最大芯片的背后,多家公司合作的故事。
在大会技术分享的主题中,台积电研发 VP 余振华讲述了公司在先进封装方面的路线图,并在 chiplet 和 3D 封装上进行了详细的阐述。而 Cerepas 在其用单晶圆制造的 WSE 上,使用的正是台积电的 InFO_SoW 封装技术。
体量的增大使 WSE-2 拥有更密集的电路和更复杂的结构,这让芯片设计面临前所未有的复杂度。就在这个时候,Synopsys 提供了一些软件,帮助 Cerepas 克服了一些芯片设计的难题,加速了芯片的研发。
实际上, Cerepas 所面临并解决的大芯片设计和制造的挑战还有很多,我们不难看出,这颗 WSE-2 芯片实际上是多家公司长年累月研究出的核心技术的结晶。