作者 | 屠敏
出品 | CSDN(ID:CSDNnews)
「上个世纪 70-80 年代,康奈尔大学的教授弗雷德贾里尼克和同事彼得布朗等人在研究语音识别时,无意中开创了一种采用统计的方法解决智能问题的途径,即只要利用好大量的数据,就能让计算机识别语言,翻译人的语言。」
这一研究,让人们逐渐发现,信息的有效利用能够让计算机变得聪明起来。
如今人工智能时代,多场景应用的全面开花,产生了大量的数据,有调查显示,全球数据量的一半都在过去两年内产生。不过,值得注意的是,其中只有不到 2% 的数据仅供分析,发挥应有的使用价值。这意味着,呈现井喷式发展趋势的数据,仍有巨大的潜力有待挖掘。
2017 年伊始,芯片巨头英特尔正式对外官宣:从「PC 为中心」转向「以数据为中心」,在拓展多元化业务的同时,以软硬件协同为核心,结合人工智能、5G、智能边缘等突破性技术,旨在释放智能 X 效应,也希望借此让更多的数据发挥其真实的价值,推动行业及业务应用快速落地。
日前,针对正在走 AI 与数字化道路上的英特尔,CSDN 独家专访英特尔公司市场营销集团副总裁中国区数据中心销售总经理陈葆立和英特尔大数据技术全球 CTO、大数据分析和人工智能创新院院长戴金权,邀请二位从英特尔的硬件方案落地与软件的开放工具研发等维度,揭秘英特尔 AI 硬件与软件的生态构建之路。
英特尔的“变身”
曾几何时,背靠摩尔定律,手持处理器,英特尔在众人眼中仅是一家硬件公司。
近几年,除了王牌业务 CPU 外,英特尔在 FPGA、自定义的 ASIC 芯片、GPU 以及软件工具、开源框架、平台等层面全军出击,打破众人印象中“只是一家做 CPU 企业”的认知。
在英特尔转型过程中,对其内部人员而言,陈葆立表示,「在英特尔 20 年的职业生涯中,从以 PC 为中心的时代到以数据为中心时代,宗旨一贯是创造改变世界的技术,造福地球上每一个人」,其实这一点并没有变。要论变化,或是场景不一样了,彼时开发新技术更多的是围绕 PC 端,如今无论是手机、平板、台式机等其他终端,整个计算都将围绕云端。
在戴金权看来,随着英特尔以数据为中心的战略转型,对于其乃至软件研发团队,围绕软件生态圈的工作越来越广泛的同时,也越来越关键。对此,戴金权表示,“不管是从前做的 Linux、内核、虚拟化、各种各样 Cloud Native,还是现在做的大数据、AI 等,对英特尔来说,软件在硬件之上,一直扮演一个非常重要的角色。”
数据时代,软件带来性能上的提升呈指数级
硬件之于英特尔,是一种盔甲;软件之于英特尔,则是一种不可替代的发动机。
「有一种说法,硬件每带来一个数量级上的性能提升,软件可以带来两个数量级上的性能提升。」不为众人所熟知的是,从Linux 到 Linux Kernel 等各种各样的工具,从大数据到人工智能开放平台,英特尔在软件方面的研究,已有多年。
戴金权表示,“对于英特尔而言,如何利用在软件上投入的专业专家,亦或是在技术积累的基础上促进生态、产品、客户配合,让英特尔的软硬件得到更好的应用体验与性能,这是英特尔正在做的事情。”
结合人工智能,英特尔在软件层面从两大重要方向出发:
框架与工具构建:英特尔通过 BigDL 和 Analytics Zoo 构建统一的大数据分析与人工智能平台,帮助用户开发部署深度学习、人工智能和大数据分析的应用,为众多合作伙伴和用户协作,推动人工智能部署;
统一编程方式:作为以开发者为中心的平台,oneAPI 将为 AI 应用无处不在、多架构并存的世界重新定义一种新的编程方式。
BigDL、Analytics Zoo 大数据分析平台实践
其中,BigDL 和 Analytics Zoo 等工具的落地也并非一蹴而就。
彼时,人工智能相较于业界,更多的是存在于实验室中,而从实验室跨越并真实应用到用户的实际生产空间与场景中,实则面临着多种挑战,譬如,在数据处理、分析、特征的提娶建模、人工智能模型的训练、推理等端到端的应用中,如何将人工智能无缝扩展到大规模数据集上,以及让人工智能真正应用到现实的生产系统。
针对这一点,2019 年 6 月,英特尔宣布成立大数据分析和人工智能创新院,旨在将人工智能和大数据分析相结合,围绕三大层面,更好地将人工智能落地:
Applied Research,即前沿技术研究。英特尔与 CVPR、UC Berkeley、上海交大等高校合作,聚焦前沿技术研究工作。
在此基础上,通过一些开源软件平台,如 Analytics ZOO、BigDL 等,将先进的前沿技术变成工业级可用的大数据+人工智能平台。
最终帮助用户实现实际应用的落地。
在这一过程中,对于 BigDL、Analytics ZOO 开源平台的研发落地,戴金权解释道,它们是开源大数据+AI 的平台,其最终目的将最新的人工智能技术应用到大数据环境中,这就意味着,首先,该平台需要帮助用户很方便地构建端到端的大数据分析+AI流水线或者应用。其次,将 AI 模型快速便捷地无缝扩展到大规模分布式的环境中。最后,如通过这个过程帮助用户更加自动化。
自研发到落地的两年多时间中,BigDL、Analytics ZOO凭借开源的特性,已吸引了大量的用户贡献代码。与此同时,戴金权表示,也有不少用户利用它构建不同的应用场景,并在现实应用中落地。
对此,戴金权以英特尔与腾讯的合作为例,在腾讯云中,有一款智能钛机器学习平台,该平台上整合了构建于 BigDL、TensorFlow 等引擎之上的 Analytics ZOO 平台。时下,机器学习平台不仅可以为用户提供基于大数据深度学习等多种服务,同时在这基础之上,也有一种自动化积极学习功能,可帮助用户将机器学习构建的过程能够更大程度自动化。其中,自动化积极学习一些先进的技术通过Analytics ZOO平台能够帮助用户将时间序列分析等应用很方便地自动化构建,也可以在大规模的至强集群上完成大规模分布式搜索等,大大降低了机器学习的门槛。
除了软件生态方面的合作,陈葆立表示,Analytics ZOO 平台在新能源乃至工业层面也有广泛应用。譬如,在新能源领域,众所周知,风能相比火力发电是一种更加绿色环保的发电方式,但是因对天气、风力的预测技术并不是太精确,因此,风能在实际应用中比例并不高。反之,倘若风能预测准确度越高,风能的发电就越高。而这是否能用技术手段来解决?随着人工智能、大数据等技术的发展,这已经逐渐成为现实。
作为国内一家风能公司金风慧能,其利用 Analytics ZOO 大数据分析平台,构建了一种全新的分布式架构,且打造一个新的预测数据持续特性的管理,对此,陈葆立表示,“通过这一合作成果,不仅大幅度提高了预测的准确度,也能帮助国内风能厂商提高风能准确率,并将新能源做得更好。”
不仅在外部,同样在英特尔内部,Analytics ZOO 也有大规模的应用。作为芯片制造商,英特尔在位于大连的 3DNAND 内存技术工厂,借助 Analytics ZOO 大数据平台,使用先进的分析技术,包括人工智能驱动的缺陷图像分析、使用统计数据分析和机器学习算法的自动根本原因分析,将自己的产线所有数据综合在一起。整体上,使得产量工程中的工程生产率提高超过 50%,从而使连续技术的产量增长速度加快 25%。此外,利用现有工程资源,将缺陷偏移解决速度提高 6 倍,极大程度降低了工具停产时间,并使得实验分析设计速度提高 10 倍,晶圆可靠性分析速度提高 20 倍,从而加快技术开发。
四种架构,统一编程模型oneAPI
在智能计算时代,面向 CPU、GPU、FPGA、加速器等不同平台开发时,英特尔推出了 oneAPI 工具,戴金权表示,其目的是为了推动异构硬件的架构,最终希望开发者可通过统一 API 编程模式,让程序在不同的硬件平台上都能够运行得非常好。
不过,在这一过程中,陈葆立也表示,“从理想到实现需要有一个 multi-step 过程,接下来,英特尔针对 oneAPI 以及其他软件层面,陆续会有更多的更新推出,请大家敬请关注。”
打破传统枷锁,AI 助力硬件性能提升
除了软件层面,短短几年间,英特尔人工智能在硬件的部署已陈兵百万。
事实上,人工智能并不是一个新话题,对此,陈葆立表示,从英特尔来看,无论是在云端、数据中心、一款设备,乃至一个摄像头亦或是手机,人工智能都仍有很大的发展空间。而不管是边缘还是云端,其所需要的计算力,配比功耗都是不同的,因此也需要不同的方案来满足不同场景下人工智能的需求。
围绕人工智能技术,英特尔在两个月前,最新发布了第三代至强可扩展处理器,该处理器推出了一种全新指令集Bfloat16,这也是业界比较新的一个 format,它能够大规模提高推理能力。
日前,英特尔与国内多家厂商合作,逐步验证了 AI 在硬件上带来的性能提升。其中,在英特尔与腾讯云的合作中,通过验证第三代至强可扩展处理器中Bfloat 16 的 AI 指令集后,腾讯语音助手的推理运算相较此前有了 1.89 倍的速度提升。另外,英特尔也与蚂蚁集团共同验证了通过最新的至强 AI 指令集,证实在阿里的视频推理过程中,性能提升了 1.8 倍。
除了硬核实力的 CPU 产品之外,现在在硬件层面,英特尔也打造了包括FPGA、GPU、AI 专属芯片等。陈葆立表示,英特尔希望提供一套完整的芯片方案,让用户在各个不同的场景都能够用到人工智能技术,在不同的场景下都可以有不同的产品来达成用户想要做的事情。
在 AI 应用层面,戴金权表示,在很多用户实际生产环境当中,人工智能的应用会和应用逻辑和数据处理是一个整体,至强处理器能够很好的作为一个基础将所有不同的工作负载整合在一起,在一个基础的平台架构上很好的运转起来。针对至强处理器,除了加入Bfloat16、VNNI、AVX-512等指令,也运用了大量的深度学习框架,如 TensorFolw、PyTorch等。
行至人工智能路,我们如何披荆斩棘?
场景的多样化催生了大数据的爆发,驱动人工智能的发展,而人工智能反哺大数据,让更多场景成功落地。人工智能未来一定是“软件+硬件”的综合体。
下一步,陈葆立表示,围绕生态构建层面,对于 TO B 端亦或是行业而言,无论采用软件还算是硬件方案,需要考虑几个层面:可靠性、稳定性、大规模部署、好不好用,是否存在安全问题等。在此,英特尔所发布的至强处理器及解决方案正如上文所述,均在各行各业得到了大规模的验证。同时,人工智能、大数据作为一种新的软件技术,英特尔也在致力于利用同一个硬件把端到端的分析做好,能够更好地利用到结构化数据的同时,做更好的决策。
针对开发者层面,开发工作最终需要投资报酬率进行衡量,即开发的软件最终需要用商业化来检验。在英特尔平台上,不管是云计算、整个服务器,借助如 Analytics ZOO、BigData 等工具,陈葆立相信,能够让工程师的开发时间变得更短,也能够更快地提供相应的商用方案,为行业带来价值,也让投资报酬率得到正面的收获,这对于开发者而言,无疑也是一大福音。
同时,在无处不在的人工智能时代,戴金权表示,无论是企业还是开发者,都需要一个非常基础的软硬件平台作为研发坚实的基础,以此针对不同的应用场景构建,围绕英特尔人工智能、大数据基础技术平台,包括以至强为主、亦或结合未来 XPU 硬件通用平台,业界将能够很好地将人工智能更好地在应用场景中,并在生产系统中落地。
面向未来,在 5G 加持下的人工智能,陈葆立表示,时下运营商们针对 5G 的部署正在紧锣密鼓地进行中,因基础建设的改变,明年科技圈势必会发生很大的变化,因为高速公路已经落地,无论是运营商还是互联网公司更加注重的是 5G 如何运营,在爆发的数据量产生之后,如何做分析与判别。
三年前,AlphaGo 在人机大战中,一战成名,人工智能也因此大热,经过几年的沉淀,AI 稍微平缓。但在 5G 成功部署之后,如何更好地利用人工智能、大数据帮助我们更好地处理数据,陈葆立表示,这又是一波值得期待的高潮,我们也将拭目以待!