黄氏定律是以英伟达创始人黄仁勋名字命名的定律,对AI性能的提升作出预测。
作者 | 包永刚
1965年,时任仙童半导体公司工程师,也是后来英特尔的创始人之一的戈登摩尔(Gordon Moore)提出了摩尔定律(Moore's law),预测集成电路上可以容纳的晶体管数目大约每经过24个月便会增加一倍。
后来广为人知的每18个月芯片性能将提高一倍的说法是由英特尔CEO大卫豪斯(David House)提出。过去的半个多世纪,半导体行业按照摩尔定律发展,并驱动了一系列的科技创新。
有意思的是,在摩尔定律放缓的当下,以全球另一大芯片公司英伟达(NVIDIA)创始黄仁勋(Jensen Huang)名字命名的定律“黄氏定律 (Huang’s Law)”对AI性能的提升作出预测,预测GPU将推动AI性能实现逐年翻倍。
英伟达GPU助推AI推理性能每年提升一倍以上
英特尔提出了摩尔定律,也是过去几十年最成功的芯片公司之一。英伟达作为当下最炙手可热的AI芯片公司之一,提出黄氏定律是否也意味着其将引领未来几十年芯片行业的发展?
AI性能将逐年翻倍
受疫情影响,一年一度展示英伟达最新技术、产品和中国合作伙伴成果的GTC China改为线上举行,黄仁勋缺席今年的主题演讲,由英伟达首席科学家兼研究院副总裁Bill Dally进行分享。Bill Dally是全球著名的计算机科学家,拥有120多项专利,在2009年加入英伟达之前,曾任斯坦福大学计算机科学系主任。加入英伟达之后,Dally曾负责英伟达在AI、光线追踪和高速互连领域的相关研究。
英伟达首席科学家兼研究院副总裁Bill Dally
雷锋网消息,在今天GTC China 2020演讲中,Dally称:“如果我们真想提高计算机性能,黄氏定律就是一项重要指标,且在可预见的未来都将一直适用。”
Dally用三个项目说明黄氏定律将如何得以实现。首先是为了实现超高能效加速器的MAGNet工具。英伟达称,MAGNet生成的AI推理加速器在模拟测试中,能够达到每瓦 100 tera ops 的推理能力,比目前的商用芯片高出一个数量级。
之所以能够实现数量级的性能提升,主要是因为MAGNet采用了一系列新技术来协调并控制通过设备的信息流,最大限度地减少数据传输。数据搬运是AI芯片最耗能的环节已经是当今业界的共识,这一研究模型以模组化实现能够实现灵活扩展。
Dally带领的200人的研究团队的另一个研究项目目标是以更快速的光链路取代现有系统内的电气链路。Dally说:“我们可以将连接GPU的NVLink速度提高一倍,也许还会再翻番,但电信号最终会消耗殆荆”
这个项目是英伟达与哥伦比亚大学的研究团队合作,探讨如何利用电信供应商在其核心网络中所采用的技术,通过一条光纤来传输数十路信号。据悉,这种名为“密集波分复用”的技术, 有望在仅一毫米大小的芯片上实现Tb/s级数据的传输,是如今互连密度的十倍以上。
搭载160多个GPU的NVIDIA DGX系统模型
Dally在演讲中举例展示了一个未来将搭载160多个GPU的NVIDIA DGX系统模型。这意味着,利用“密集波分复用”技术,不仅可以实现更大的吞吐量,光链路也有助于打造更为密集的系统。
想要发挥光链路的全部潜能,还需要相应的软件,这也是Dally分享的第三个项目全新编程系统原型Legate。Legate将一种新的编程速记融入了加速软件库和高级运行时环境Legion,借助Legate,开发者可在任何规模的系统上运行针对单一GPU编写的程序甚至适用于诸如 Selene等搭载数千个GPU的巨型超级计算机。
Dally称Legate正在美国国家实验室接受测试。
MAGNet、以光链路取代现有系统内的电气链路以及Legate是成功实现黄氏定律的关键,但GPU的成功才是基矗因此,GPU当下的成功以及未来的演进都尤其重要。
GPU是黄氏定律的基础
今年5月,英伟达发布了面积高达826平方毫米,集成了540亿个晶体管的7nm全新安培(Ampere)架构GPU A100。相比Volta 架构的GPU能够实现20倍的性能提升,并可以同时满足AI训练和推理的需求。
凭借更高精度的第三代Tensor Core核心,A100 GPU AI性能相比上一代有明显提升,雷锋网此前报道,在7月的第三个版本MLPerf Training v0.7基准测试(Benchmark)结果中,英伟达的DGX SuperPOD系统在性能上开创了八个全新里程碑,共打破16项纪录。
另外,在10月出炉的MLPerf Inference v0.7结果中,A100 Tensor Core GPU在云端推理的基准测试性能是最先进英特尔CPU的237倍。
更强大的A100 GPU迅速被多个大客户采用,迄今为止,阿里云、百度智能云、滴滴云、腾讯云等众多中国云服务提供商推出搭载了英伟达A100的多款云服务及GPU实例,包括图像识别、语音识别,以及计算流体动力学、计算金融学、分子动力学等快速增长的高性能计算场景。
另外,新华三、浪潮、联想、宁畅等系统制造商等也选择了最新发布的A100 PCIe版本以及英伟达 A100 80GB GPU,为超大数据中心提供兼具超强性能与灵活的AI加速系统。
Dally在演讲中提到:“经过几代人的努力,NVIDIA的产品将通过基于物理渲染的路径追踪技术,实时生成令人惊艳的图像,并能够借助AI构建整个场景。”
与光链路取代现有系统内的电气链路需要软硬件的匹配一样,英伟达GPU软硬件的结合才能应对更多AI应用场景苛刻的挑战。
Dally在此次的GTC China上首次公开展示了英伟达对话式AI框架Jarvis与GauGAN的组合。GauGAN利用生成式对抗网络,只需简略构图,就能创建美丽的风景图。演示中,用户可通过语音指令,即时生成像照片一样栩栩如生的画作。
GPU是黄氏定律的基础,而能否实现并延续黄氏定律,仅靠少数的大公司显然不够,还需要众多的合作伙伴激发对AI算力的需求和更多创新。
黄氏定律能带来什么?
英伟达已经在构建AI生态,并在GTC China上展示了英伟达初创加速计划从100多家AI初创公司中脱颖而出的12家公司,这些公司涵盖会话人工智能、智慧医疗/零售、消费者互联网/行业应用、深度学习应用/加速数据科学、自主机器/IOT/工业制造、自动驾驶汽车。
智能语音正在改变我们的生活。会话人工智能的深思维提供的是离线智能语音解决方案,在占有很少空间的前提下实现智能交互,语音合成和语音识别保证毫秒级响应。深声科技基于英伟达的产品研发高质量中英文语音合成、声音定制、声音克隆等语音AI技术。
对于行业应用而言,星云Clustar利用英伟达GPU和DGX工作站,能够大幅提升模型预测精确度以及解决方案处理性能,让传统行业的AI升级成本更低、效率更高。
摩尔定律的成功带来了新的时代,黄氏定律能否成功仍需时间给我们答案。但这一定律的提出对AI性能的提升给出了明确的预测,并且英伟达正在通过硬件、软件的提升和创新,努力实现黄氏定律,同时借生态的打造想要更深远的影响AI发展。
黄氏定律值得我们期待。