展会信息港展会大全

多架构时代的创新 英特尔驱动AI+HPC融合走向行业纵深
来源:互联网   发布日期:2020-10-27 21:41:56   浏览:3464次  

导读:新冠疫情的爆发,让我们更加清晰地认识到高性能计算在当今社会所扮演的重要角色。随着高性能计算与人工智能工作负载的不断融合,英特尔着眼于通过XPU战略,将边缘到云、硬件和软件融入整个生态,引领高性能计算进入更加智能的新时代,推动高性能计算在解决更...

“新冠疫情的爆发,让我们更加清晰地认识到高性能计算在当今社会所扮演的重要角色。随着高性能计算与人工智能工作负载的不断融合,英特尔着眼于通过XPU战略,将边缘到云、硬件和软件融入整个生态,引领高性能计算进入更加智能的新时代,推动高性能计算在解决更多社会重大挑战方面担当重任。”在2020 CCF全国高性能计算学术年会的大会演讲中,英特尔公司数据平台集团副总裁、高性能计算事业部总经理Trish Damkroger谈到。

数字化转型步入深水区的一个标志是业务负载的复杂化,以及新技术与应用场景结合得愈发紧密。万物智联所处在数据爆发的时代,多元的应用需求对计算、存储、网络提出了更高的要求,异构性不仅检验着一家厂商应对各种类型计算难题的综合实力,更是计算和智能协同创新的关键所在,这一趋势在HPC+AI迈向融合的过程中体现得尤为显著。为此,英特尔也在构建丰富的算力架构。

加速从边缘到云再到超级计算的创新

今年,英特尔推出了首款10nm Ice Lake服务器CPU,并将在2021年发布基于增强型SuperFin技术的下一代至强可扩展处理器Sapphire Rapids,更加有力地支持深度学习加速以及高性能计算与人工智能工作负载的融合。同时,英特尔还计划推出基于Xe架构的独立通用GPU“Ponte Vecchio”,“Ponte Vecchio”采用7纳米工艺进行制造,并采用英特尔Foveros 3D和嵌入式多芯片互连桥接(EMIB)创新封装技术,可以为高性能计算和人工智能工作负载进行优化。Trish Damkroger认为,HPC和AI正处于融合的临界点,至强可扩展处理器则是这一进程中的关键一环,其内置的人工智能指令集将加速这一趋势。

软件层面,英特尔推出的oneAPI能够简化跨多种类型处理器和加速器的开发,支持广泛的行业生态系统采纳该技术来推动创新、简化应用开发、实现应用在大量节点上的可扩展性。自去年oneAPI 1.0测试计划上线以来,英特尔对其可视化组件、编译器等工具集进行了大量优化和更新,已推进到第9版Beta,并计划在今年晚些时候公布Gold版本(SPEC V1.0)。目前,英特尔正在与美国阿贡国家实验室(ANL)等机构、开源组织、科学探索者、客户等一同使用oneAPI平台。GPU方面,Xe架构的产品Arctic Sound P会在今年底或明年初以软件开发平台的形式推向市场,合作伙伴可以在oneAPI上进行软件优化,直接调用Arctic Sound P的能力。

无论是标量(Scalar)、矢量(Vector)、矩阵(Matrix)还是空间(Spatial)的应用特性,英特尔均可以通过XPU策略提供CPU、FPGA、GPU等各类产品组合满足不同的场景需求。以Ponte Vecchio为例,该产品线可分为三类,覆盖入门级LP、高性能产品,以及HPC和AI融合的产品线,对应不同层次的应用。对于HPC应用,至强可扩展处理器和Ponte Vecchio能够满足复杂的计算需求,傲腾持久内存解决了CPU和存储之间的缓存难题,更进一步,英特尔还利用开源、软件定义的扩展对象存储库DAOS(分布式异步对象存储)提供了高带宽、低延迟和高IOPS的存储容器,可将仿真、数据分析和AI相结合,支持下一代以数据为中心的工作流。

异构计算时代已经到来

“oneAPI支持绝大多数的加速或异构的产品线。”Trish Damkroger表示,“我们希望能有一个统一的开发平台,这个平台可以涵盖足够多的产品线,包括从CPU、GPU、VPU到Habana等等,可以帮助客户在HPC+AI的融合过程中,大幅减少工作量,推动他们的业务发展。”与此同时,英特尔也在与云计算厂商积极合作,拓展云化HPC的需求。据估算,HPC云化的年化增长率是18%-20%。

上海交通大学医学院附属瑞金医院的国家转化医学中心,是转化医学国家重大科技基础设施,也是“十二五”期间国家重点规划的16项重大基础设施之一。“我们的信息化建设主要有两个方向,一个是面向临床的,我们称之为智慧医疗,另一方面是面向研究方向的,我们提供了支撑各个组学的计算。本次疫情中,我们这个平台也发挥了比较大的作用。”转化医学中心大数据平台负责人吕纲介绍称,“在IT架构上,我们采用了英特尔傲腾的内存产品,也在尝试使用DAOS分布式文件系统,我们把AI和一些组学计算的应用都部署到上面去,通过它对数据的加速来提升项目的运行效率。”

疫情期间,瑞金医院国家转化医学中心与上海公卫中心合作,与上海公卫中心进行了合作,对2020年1月20日-2月25日期间收治的326例患者,进行了病毒基因组、临床表现特点、免疫反应改变等数据的全面深度分析,其中112个COVID-19病例的病毒基因组进行了深度测序、组装和解析。相关研究成果最后也在《Nature》的主刊上得到了发表。基于HPC+AI的研究平台起到了非常大的加速作用。例如在组学分析中,多样化的工作负载多为计算密集型,对内存需求较大,遇到大规模数据时对I/O能力也有不小的考验。在基因组测序分析时,采用CPU加速的方式利用其并行化能力的特点,能够使原来分析的速度提高5-10倍。

在傲腾持久内存的使用方式上,Memory Mode和APP Direct Mode均有应用。“我们的分析基本上分为两种,一种是Reference相关的,对CPU有比较多的需求,另一种是Assembly,需要把不同的碎片进行整合,这一类的计算对内存需求就非常大。”吕纲表示,“比如做全基因组组装的时候,需要大内存就会使用傲腾的内存模式,另外一种情况是其他的机器会采用存储模式,通过DAOS分布式文件系统来对这个应用进行加速。”

除了产品赋能,英特尔为支持抗疫还投入5000万美元成立了技术响应计划,与合作伙伴和客户在病患治疗、药物研发等方面加速进展。例如英特尔与美国德克萨斯高级计算中心合作,研究者可以通过分子动力学等研究方式,探索病毒的结构和病毒如何复制的原理,加速疫苗及其他药物开发的进程,英特尔投资的VeriSIM公司则在HPC集群上提供了加速软件平台,帮助研究者快速从数千种侯选药物中挑出合适的药物。此外,英特尔也在利用AI技术推进X光成像判断疫病和医学辅助治疗。

南京大学人工微结构科学与协作创新中心的e-Science中心支撑了全校的教学科研服务,包括高性能计算,以及云盘、开源镜像等信息化服务。在HPC的建设中,该中心广泛使用了至强可扩展处理器、傲腾持久内存和OPA产品,规模约为600多个节点。在设备部署上,e-Science中心和学校的课题组共建了多品牌、多架构的集群,使得所有用户的选择都能得到满足。截至2019年,e-Science中心的HPC集群使用率已经能够达到90%左右。

南京大学人工微结构科学与协作创新中心的姚舸老师谈到,该中心使用AEP基于OpenZFS自建了存储系统,承载网站运营、云盘、开源镜像等业务,采用Memory Mode和APP Direct Mode的混合模式,前者为ZFS提供了大内存缓存,性价比较高,被95%的业务所使用,后者使用率较低,仅支持了2%的生产场景,为ZFS提供高速写缓存,程序会先把内容写到AEP的持久化内存盘中,ZFS再周期性的把内容落到硬盘,从而大幅提升同步写的性能。同时,AEP写入寿命长的特点也能够在处理重负载任务时有很好的表现。

从过去只有专门做计算的课题组才会使用HPC,到如今的实验组等也会参与到HPC的业务应用,高性能计算在高校的应用广度和深度逐年提升。更重要的是,HPC与AI的融合趋势也在显著放大。“我们在HPC集群上把计算分为两大类,一类是传统的数据计算,另一类是用AI跑机器学习,AI的引入是一个明显的特点。”姚舸表示,“英特尔为我们的科研和教学提供了很好的支持,未来我们希望继续提升基础设施和信息化的能力,得到来自英特尔在技术和商务上的更多帮助。”

东方超算帮助南京大学人工微结构科学与协作创新中心构建了HPC系统,北京东方超算科技有限公司CEO白洋谈到:“英特尔有很多新的产品和技术,我们希望和英特尔携手把这些新品交付客户一起做验证和测试。例如,AEP的使用场景不只是在OpenZFS加速,还会用于内存数据库Redis、冷冻电镜数据处理,以及人脸识别的高速响应。好的产品需要厂商和解决方案的生态合作伙伴一起推广,这样才可以让更多用户、更多场景享受到额外的性能福利。”

东方超算的业务既涉及HPC的研发制造、销售,也是超算的运营商,提供通用和行业应用,分别满足不同的业务场景,如渲染行业的影视后期数字制作,要求Windows系统和Linux系统兼具;生物信息领域的基因纳米孔测序对机器规模和存储性能有着非常多的要求;制造领域会分为工业设计、工业仿真、处理优化,对人员管理、数据管理、应用管理,以及数据前后处理的可视化,也会有特殊要求。

“以计算材料学为例,对CPU的计算规模、CPU数量、数据存储容量都有额外需求,充分融合了大数据、高性能计算和AI的研究方法。”白洋称,“现在的计算材料学可理解为高通量,同时并行多种分子或是原子模型,找到更多的材料可能性。做了大量计算任务之后,会进行大数据化的处理。简单来说,我们把历史的作业数据通过大数据分析,结合高性能计算的计算能力,对这些计算过程数据进行深度学习的训练。当拿到一些新的模型之后,做新的计算时,深度学习的推理模型就可以直接告诉用户,这个计算材料或者输入模型所具备的材料特性。”

对于高校的高性能计算发展之路,浪潮同样深有体会。“建超算并不是最难的,用好超算才是最难的。我们要提升超算系统的利用效率,让其创造更大的价值,这才是我们建设超算系统的初衷。”浪潮集团AI&HPC副总经理赵帅有着清晰的判断,“浪潮和国内的高校、科研机构合作紧密,因为这些客户是使用超算的主力军,他们有大量的学者、研究型人才,也有大量的想法和思路,能够使用超算系统作为一种很好的工具。我们要根据应用需求量身定制,为客户建设更好用的、门槛更低的超算系统,这是未来超算建设的主流方向。”

为此,浪潮在HPC团队的建设上除了关注系统架构师,更看重应用工程师的能力。很早之前,浪潮就在HPC部门建设了一支面向各个领域应用的博士团队,覆盖物理、化学、材料、生命科学、气象气候等各领域,并且在打造既懂应用又懂计算机的跨学科人才。与此同时,浪潮也是最早在国内推广HPC系统架构软件的企业之一,包括HPC系统管理及调度软件Cluster Engine和系统诊断工具天眼。在同样的硬件系统下,浪潮的应用团队可以帮助客户提升20%-30%的系统运营效率。

“π2.0”超算系统

2018年,上海交大和英特尔、浪潮的团队开始了“π2.0”超算系统的建设,并在2019年4月投入使用。这套系统部署了656台双路计算节点(Cascade Lake 6248处理器),计算核心超过2.6万个,峰值性能超过2PFLOPS,使用了Omni-Path最大端口1152的核心交换机,可以保证每个节点之间都是点对点带宽是100GB的无阻塞互连。同时,该系统构建了全闪存储系统,在五台存储节点实现了70GB/s聚合带宽。值得一提的是,浪潮还根据客户的实际业务需求,如为人造太阳研究、材料化学、生命科学等学科,相应设计了双路的瘦节点和胖节点,匹配定制化应用。

依托π2.0平台,浪潮联合上海交大天文系、厦门大学天文系运行了4.4万亿粒子的N体模拟(N-body)算例,使用了集群超过512个节点、两万多个核心,追踪了137亿宇宙演化过程,打破了天文学N体模拟的世界纪录。除了π2.0,浪潮在今年基于英特尔Cascade Lake Refresh处理器和中南大学联合设计了一套新的HPC。“这应该是高校中计算能力最强的一套超算系统。”赵帅说。这套系统部署了1062个节点,预计11月正式上线运行。

一直以来,英特尔都在持续加强至强可扩展处理器的AI表现,包括VNNI指令集、Bfloat16精度运算等,并通过Nervana、Habana等产品丰富了协同加速芯片的体验。在赵帅看来,代号“CooperLake”的CPU平台仍会更多关注在AI应用的推理上,而AI训练方面则更期待Ponte Vecchio加速卡,“英特尔的GPU加速卡将是非常强劲的,我们很期待它的发布。在正式发布之前,我们也会做充分的应用测试,我相信英特尔新的加速卡和oneAPI联合推出的时候,会对市场产生非常大的变化。”

浪潮与英特尔的长期深度合作,为加速中国的高性能计算产业发展奠定了坚实基础,而双方的合作也不局限于至强可扩展处理器、AEP等产品线,还有FPGA领域,例如基于Arria 10定制的F10A FPGA卡,支持OpenCL高级语言开发,是一款拥有极致计算密度的半高半长FPGA板卡。

“英特尔在整个芯片产品线上的布局是比较全面的,浪潮与英特尔的合作很紧密,共同推动相应的芯片在算力、客户端赋能于各个行业,取得更好的应用效果。”赵帅表示,“我们一直在共同寻找POC大客户,以及合适的算力和行业,预知一些新的客户需求,以便在产品面市后可以取得很好的推广效果。这也是浪潮能够与英特尔在每一代的新产品上,都可以很快做出最佳实践的重要原因。”

(7551336)

赞助本站

人工智能实验室
相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港