(图片来源:Graphcore)
【本文来自钛媒体特色栏目「快公司」】
AI芯片迎来物种大爆发,众多企业蜂拥而至,不仅有Arm、英伟达、华为这样的科技巨头参与,还有像Graphcore这样的新生代力量企业,希望取代英伟达的“独霸”地位。
7月15日,英国半导体公司Graphcore发布其第二代IPUColossus Mk2 GC200。该公司声称,这是比英伟达A100 GPU更最“复杂”的AI芯片,甚至要超越英伟达A100 GPU的性能表现。
Graphcore成立于2016年,致力于为AI和机器学习开发加速器和软件系统。
随着年初该公司宣布完成1.5亿美元D轮融资,四年内Graphcore共筹集超过4.5亿美元的风险投资基金,公司估值接近20亿美元,是名副其实的独角兽企业。
英国半导体之父、Arm的联合创始人Hermann Hauser爵士曾这样评价Graphcore:
“在计算机历史上只发生过三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。”
充足的资本“弹药”,很高的评价盛誉,都是Graphcore能够和英伟达对抗(Battle)的底气。
Graphcore推出的另类AI芯片IPU
过去两年,人工智能行业迎来瓶颈期,算法层面进步较慢,更多的从业者期待利用专业的AI芯片提高算力,同时可处理训练和推理二者的工作能力,从而替代传统的CPU、GPU。
因此,众多企业将AI芯片包装成各种各样的词汇。比如DPU(数据流处理单元)、NPU(神经处理单元)、EPU(情感处理单元)等。很多人也认为,IPU更像是一个营销词汇。
但Graphcore表示,IPU其实是智能处理单元(Intelligent Processing Unit)的缩写,这是一个专门为机器学习工作负载而设计的神经网络处理芯片架构,是一个全新的大规模并行处理器。
与传统的CPU、GPU相比,IPU用了更大规模的并行MIMD处理器核,还有一个非常大的分布式片上SRAM,以及全新的处理架构,专门适用于智能计算工作负载。
Graphcore高级副总裁兼中国区总经理卢涛介绍,在AI技术应用中,通常需要大规模数据的并行、复杂结构的计算。在这个情况下,传统CPU、GPU几乎都在做科学计算或高性能计算(HPC),针对AI技术的算法处理能力效果并不理想。因此,IPU在针对智能计算方面有着明显的优势,可同时处理算法中的训练和推理能力。
同时,针对低精度的数据模型,IPU也做了专门的优化。除了标准神经网络之外,IPU还适用于AI领域最为常用的贝叶斯网络和马尔科夫网络。
可以这样理解,IPU就是一颗为AI专门打造的芯片,不管是边缘,还是终端计算,IPU都可以胜任。
2018年,Graphcore推出该公司首款AI芯片产品Colossus Mk1,并首次提出IPU处理器这个概念,得到半导体行业的广泛关注。
过去两年,Graphcore成长很快,四年内共筹集超4.5亿美元的风险投资基金。投资者名单中不乏AlphaGo之父、DeepMind联合创始人戴密斯哈萨比斯(Demis Hassabis),剑桥大学教授佐宾葛拉曼尼(Zoubin Ghahramani),OpenAI联合创始人Greg Brockman等AI领域的学术级投资人,还有红杉资本这类明星机构投资者。而戴尔、三星、微软等知名企业作为战略投资者亦参与其中。
两年后的今天,Graphcore宣布推出硬件GC200 IPU和软件平台Poplar,提供一整套解决方案,希望解决AI当中的算法和工作负载难题。
GC200 IPU能和英伟达A100 PK吗?
英伟达在今年5月发布首个基于安培(Ampere)架构的GPUNVIDIA A100,7nm制程工艺,拥有540亿颗晶体管,20倍AI算力的提升,号称是“全球最强大的AI芯片”。
尽管在摩尔定律下,传统CPU、GPU正为形成强大处理器而稳中提速,但未来AI算力的提升,或将来自于专项AI芯片,Graphcore认为这是GC200 IPU推出的契机。
7月15日,Graphcore发布Mk1的继任产品GC200 IPU。除了和英伟达A100一样的台积电7nm制程工艺外,该处理单元封装了594亿个晶体管,比A100 GPU还要多出54亿个,性能上比A100 GPU快16倍,在多个主流模型上的表现均优于A100 GPU。
AI技术底层的核心三要素是算力、算法和大数据,这三者缺一不可。尽管GC200 IPU在计算、内存和通信等性能方面取得了重要突破,超过了英伟达的A100 GPU,但在大数据应用和商业化进程上,Graphcore仍处在早期阶段,和英伟达之间有着一定的差距。
1、突破:计算、存储和通信
在计算能力上,Graphcore最新发布的GC200 IPU,从1216个提升到1472个独立的IPU-Tiles的处理器内核单元,共有8832个可以并行执行的线程。这样做的好处,其实是在算力训练上有更多的提升空间。
相比第一代IPU,实际性能提高了8倍,算力训练提升两倍。其中,BERT-Large的训练有9.3倍性能的提升,3层BERT推理有8.5倍的性能提升,EfficientNet-B3有7.4倍的性能提升。
同时,对比基于英伟达8个A100 GPU的DGX-A100,Graphcore利用同样8个GC200 IPU组成的系统,FP32算力提升了12倍,AI计算提升了3倍。
卢涛表示,利用强大的计算能力,在CV(计算机视觉)和NLP(自然语言处理)应用方面有更多发挥的空间。
在存储技术方面,Graphcore提出了IPU Exchange Memory的交换式存储概念,相比英伟达当前使用的HBM技术,可以提高至近100倍的带宽以及大约10倍的容量。存储方面的提升,对于很多复杂的AI模型算法,有着更强的硬件推力、性能优势。
英伟达和Graphcore的带宽、容量对比图
在通信方面,Graphcore专为GC200 IPU设计了IPU-Fapic的AI横向扩展结构,可以做到2.8Tbps超低延时,最多支持64000个IPU之间扩展,可通过直联或者是通过以太网的交换机等技术方式做互联互通,这将大大提升算法处理速度。
卢涛表示,不仅是单颗AI芯片,若要把IPU性能发挥到极致,就要利用64颗GC200 IPU组成的IPU-POD系统,可提供高达16PFlops的算力、58GB的In-Processor-Memory,以及7个TB的流存储,均远超过英伟达DGX-A100 GPU的性能表现。
在软件系统上,Graphcore推出软件平台Poplar。通过与TensorFlow,以及开放神经网络交换(ONNX)无缝集成,从而打造出首个专门为机器智能设计的图形工具链,加上开发人员的共同参与,形成Graphcore独有的“IPU生态”。
在计算、数据、通信三大突破下,加上AI算法上的针对性优化,Graphcore构建出大规模可扩展的IPU-POD系统,让GC200 IPU这颗芯片得到最佳的性能表现,成为英伟达DGX-A100强大的对手之一。
2、悬而未决的议题:数据和商业化进程仍处于早期阶段
即便Graphcore有了强大的IPU处理器,以及算法框架和软件系统,但大数据依然是AI技术最底层的关键因素。
卢涛对钛媒体坦率承认,尽管英伟达和Graphcore都拥有公开的数据集,但在英伟达所拥有的私有数据集上,比如边缘计算场景数据、自动驾驶的数据集等,Graphcore目前并没有,且不是公司现有的目标。Graphcore正考虑往无监督学习领域扩展,但还需要一定的时间和过程。
“英伟达试图自己成为MobileEye或者商汤等解决方案公司,这需要私有数据集,这个目前不是我们Graphcore的目标,我们现在聚焦在数据中心。”
“因为Graphcore还是一家比较小的公司。当前我们重点聚焦在机器学习相关的应用领域,也有用户在探索利用IPU做一些非AI应用,但不是公司整体发展的重点领域。”
“利用IPU实现无监督学习的方法,表现比GPU好很多,训练方面吞吐量最多达13倍。不过,从技术到应用落地还有一个过程。”卢涛对钛媒体表示。
相比英伟达A100 GPU与谷歌云、甲骨文等二十多家企业云服务落地合作,目前Graphcore仅面向商业用户、高校及研究机构等,企业中包括微软、百度和金山云。面向的用户类型中,个人开发者比较少。
Graphcore方面表示,他们下一步的重点是吸引更多的中国客户、打开中国市常通过IPU芯片、Poplar软件平台,以及Graphcore中国创新社区,发展和培育IPU生态。
“Graphcore找到了自己的赛道,在全球范围之内来看,其实我们最快落地的应用还是在超大规模数据中心,然后就是在金融方面、医疗健康领域我们的进展也非常大。”
“从AI市场的体量上讲,Graphcore认为中国是全球最重要的市场之一,也是落地速度最快的市场之一。”卢涛对钛媒体表示,长期来看,中国市场未来将占到Graphcore全球市场的40%甚至50%。
现阶段,GC200 IPU在算力、算法上似乎超过了英伟达的A100 GPU,但在数据和商业化进程上,Graphcore仍处于早期阶段,和英伟达之间有着一定的差距。
当谈到如何让IPU替换掉现有的CPU与GPU时,卢涛表示,未来将会是CPU、GPU和IPU共存的市场,对于适合使用IPU的客户,公司有信心让客户用GC200 IPU,快速替代掉现有的CPU、GPU落地产品。
“替代与否,主要决定IPU提供的价值有多少,迁移成本是否低、性价比是否高,还有生态是否要好。届时,生态圈中的用户(开发者)多了、用IPU的人多了、懂技术的人多了,当然替换的阻力将会小一点。”卢涛对钛媒体表示。
正如卢涛所说,Graphcore还是一家比较小的公司。但这家小的公司,在AI芯片研发上有着超出寻常的能力,利用IPU,正在对未来通用AI技术展开布局。而IPU是否能取代GPU的地位,还需时间的验证。
(本文首发钛媒体App,作者 | 林志佳,编辑|赵宇航)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App