欧凯 发自 凹非寺
量子位 报道 | 公众号 QbitAI
AI发展和竞争,已经来到2.0时代。
这是一个落地为王关键的阶段。
在2019上海世界人工智能现场,谈论最多的话题也是AI落地和实践经验。
或许不同的行业位置和角色,对该问题会有不同的答案。
但当英特尔给出经验总结和实践分享时,可能相对更具参考,因为作为算力担当、行业基石。AI落地进程中的英特尔见得更多、视野更广,遭遇的挑战和问题亦更具共性。
那么英特尔的AI落地经验是什么呢?
他们给出4大经验,并用了7个案例来说明。
经验一:推理需求超训练需求
就像手机厂商早期竞争时的比跑分,算力提供方在AI 1.0时代里的竞争,也往往以模型训练的速度来说话。
然而在真实场景中,风向早已变化,推理需求早已超过训练需求。
在AI应用和落地部署中,更为务实,技术价值兑现,核心是业务效能有直接提升,而推理就成为关键所在。
比如视频平台爱奇艺,AI实践和落地中,推理效率提升可以带动生产力提升。
在这家中国头部视频内容公司的产品中,实时弹屏显示、面部识别应用、鉴黄内容检测,以及文本检测应用的推理性能,都是影响用户体验和平台效益的关键项目。
英特尔方面分享称,为了实现视频服务实现全流程智能化,爱奇艺导入英特尔架构软硬件组合,优化深度学习云平台:Jarvis。
而基于英特尔架构处理器,爱奇艺还引入了MKL/MKL-DNN对云平台进行系统级优化。加入OpenVINO工具套件,提升Jarvis平台的推理效率。
最后,一系列部署完成后,效果对比显著:
实时弹屏显示的推理速度提升达5倍。面部识别应用的推理效率提升达4倍。涉黄内容检测的推理效率提升达6倍。文本检测应用中的推理性能提升达11倍。
不过,爱奇艺本身就是科技互联网公司,AI应用中有基矗
所以在加速推理并效果明显的落地实践中,英特尔还举出了美的的项目心得。
美的,国内再熟悉不过的家电制造企业,在整个流程中涉及大量的工业视觉检测需求,像快速、敏捷、自动地识别出待测产品的诸多缺陷,例如螺钉漏装、铭牌漏贴、LOGO 丝印缺陷等问题。
更重要的是,相关AI模型能够对非标准变化因素有良好的适应性,即便检测内容和环境发生变化,也能很快地予以适应,省去了冗长的新特征识别、验证时间。
于是与英特尔合作中,双方打造了一个基于“大数据+AI”端到端解决方案,实现敏捷、高性能通用化缺陷检测能力。
通俗来讲,为美的制造流程增添“眼”和“脑”。
实际上,利用机器视觉进行工业检测,也是传统工业制造中目前最核心的需求之一。
但传统机器视觉方案面临着诸多问题:一方面,复杂的生产环境带来大量非标准化特征识别需求,导致定制化方案开发周期长、成本高。
另一方面,检测内容多样化也造成参数标定繁琐,工人使用困难。
而且传统方案往往需要机械部件配合定位,因此占用产线空间大,对工艺流程有影响。
美的的固有条件是拥有来自生产一线的海量数据资源,并且春江水暖,早就开始进行全力构建基于AI技术,集数据采集、模型训练、算法部署于一体的工业视觉检测云平台。
但除了具备工件标定、图像定位及校准等功能外,美的还希望通过部署优化的深度学习训练模型和预测模型,来缩短开发周期和成本,并提高设备的易用性与通用性。
于是针对美的这一需求,英特尔为其提供了基于Apache Spark的Analytics Zoo大数据分析和AI 平台,以端到端的方式,帮美的工业视觉检测云平台快速、敏捷地构建从前端数据预处理,到模型训练、推理,再到数据预测、特征提取的深度学习全流程。
值得一提的是,Analytics Zoo在模型重定义阶段,不仅可以执行参数调整,并可加速模型推理速度,通过与英特尔至强可扩展处理器的配合,数据显示,云平台的模型推理时间已从 2秒缩短到124毫秒4。
最后,Awwnalytics Zoo还对命令行模式与 Web Service 模式提供了良好支持,这使得云平台可与美的其他应用系统实现平滑的对接。
整体结果上,项目部署周期缩短了57%,人工成本减少70%,推理时间从2秒缩短至124毫秒。
美的方面也反馈称,效益显著,正着手复制到所有产线。
经验二:需要软硬件一体化支持
美的工业视觉检测系统打造中,一方面是软件如Awwnalytics Zoo平台的能力,另一方面也有英特尔至强平台的计算加持。
而这种软硬件一体化支持,也是英特尔在AI+传统行业落地中的另一大经验,在所有落地案例中均有涉及,但在AI+医疗方面,或许更能说明问题。
这家名为西安盈谷的医疗公司,就是代表例证。
他们基于英特尔软硬件,打造了一套医疗智能化辅助诊断系统。
近年来,医学影像技术蓬勃发展,有助于医生对患者的病情进行更为细致和精确的检查,堪称医患双方共同的福音。
但依然面临资源配置、影像技术系统和专业医师人才方面的挑战。
比如海量医学影像数据的读片和分析还只能依靠人力,数量有限的专家级医生,为此消耗大量时间和精力,且无法在长时间工作时保持理想的效率和准确率。
所以西安盈谷网络,就是将其专业医学影像核心技术和产品,与云计算、大数据和人工智能等技术结合起来,凝聚成高效智能的医疗智能化辅助诊断能力,来助力广大医疗机构提升诊疗效率及质量。
在西安盈谷的计划中,智能化辅助诊断系统在未来将针对人体的各个生理系统,具备数百种人工智能检测模型。目前,其人工智能医学图谱初稿中就已定义了约 984 种疾病与医学检测数据的关联关系。
同时,该系统还基于自然语言处理能力,创建了报告智能助手,可协助医生更加高效地撰写高质量检查报告。
整个合作落地中,英特尔的技术加持,分为两方面。
一方面,输出了英特尔至强可扩展处理器。作为英特尔最新一代处理器产品,英特尔至强可扩展处理器不仅拥有强大的通用计算能力,还为智能化辅助诊断系统提供并行计算能力。
系统中涉及的大量影像处理、人工智能处理,都对并行计算能力有严苛要求,而至强可扩展处理器集成的英特尔高级矢量扩展512,正是增强单指令多数据流(Single Instruction Multiple Data,SIMD)执行效率的关键技术。
而英特尔至强可扩展处理器对通用计算能力和并行计算能力的兼顾,非常有助于系统应用负载的整合。
测试结果显示,在处理能力上,两台基于该处理器的服务器所支撑的虚拟机数据量,可以达到原先平台的 2.5 倍,这可大大降低用户的总拥有成本(Total Cost of Ownership, TCO)。
盈谷方面也分享说,原先系统渲染用一种GPU板卡,人工智能计算用另一种GPU板卡,业务处理则用通用处理器,成本很高且维护复杂。现在只需部署至强就可全部搞定。
当然,硬件加持的另一面是软件架构优化助力。
英特尔对Caffe、Tensorflow等人工智能框架的优化,也进一步提升了西安盈谷智能化辅助诊断系统的功效。
以针对英特尔技术优化的RFCN模型为例,模型优化裁剪融合带来了近30%的性能提升,而进一步优化 OpenMP多线程实现方案后,其性能还能再提升40%-50%。
此外,面向深度神经网络的英特尔数学核心函数库(英特尔 MKLDNN)的加入,也帮助该系统向全面人工智能化迈出了更加坚实的一步。这一工具主要通过以下三个方面来提升人工智能模型的性能:
使用 Cache Blocking技术优化数据缓存,提高数据命中率。
对神经网络中的常用算子进行并行化与向量化优化。
使用Winograd算法级优化。
英特尔这些软、硬件技术的配合和调优,让西安盈谷智能化辅助诊断系统具备了更为理想的性能表现,并赢得了用户的一致好评有来自一线部署的测试数据表明:以单幅胸部 Dicom 数据执行 RFCN 模型为例,使用至强金牌6148处理器时,可比使用主流GPU的耗时降低10%。
经验三:用AI活用传统场景大数据
在把AI带入传统行业过程中,最不缺的是“数据”,但最考验技术的也是大数据的分析应用。
比如快递物流,整个系统运转过程中,每一个流程节点都有大量的数据需要分析处理,一旦应用得当,就能让效率显著提升。
在韵达的合作中,英特尔就利用软硬件产品组合,实现了三大关键流程上的AI优化:
在分拨中心实现大小件测量的全流程AI处理。
在资源配置上实施更精准的AI件量预测。
在数据中心内实现基于AI分析的数据中心异常检测。
如果不深入该领域,可能不会关注到“大小件”带来的数据优化和效能提升可能。
在物流快递行业中,快递件的体积测量是韵达各分拨中心的核心工作内容之一。
通过对快件的体积进行预判,分拨中心工作人员可以给出更为合理的分拣、装车和配送规划,来降低单件配送时长及单公斤成本。
传统的方式,是分拨中心采用人工方式来进行判别,不仅费时费力,还可能出现较大误差。
于是如果加持AI,利用机器视觉技术来提升测量的效率与质量通过装备在分拨中心输送系统上的高拍仪,AI 应用会采集快件的图像信息,并传送到后端服务器进行测量,就能更好分析数据实现优化。
比如在测量完成后,分析后数据返回至输送系统,指导决策,按不同大小的快件送至合适的分拣和装车处。
英特尔分享,在该过程中,Analytics Zoo平台提供的图像分类技术在其中起到了关键作用。
利用该平台内置的图像识别模型,AI应用首先能够提取出待测量的快件轮廓,进而通过平台提供的 TensorFlow等深度学习框架,结合英特尔至强可扩展处理器提供的算力,完成从模型训练、模型重定义到模型推理的AI处理全流程,最终获得准确的大小件测量数据。
基于此,韵达还在进一步地利用深度学习算法来进行运筹优化。
例如其将装车过程抽象为经典的“切箱问题”,也就是当不同大小的快件到来之际,要规划好摆放的次序、朝向和位置,来使装件量最大化,从而尽可能降低运输成本。
在英特尔的协助下,韵达AI团队利用深度学习的结构来表述这一问题的各个状态,并在其后加上强化学习的方法,将这一启发式的策略学习出来,其应用效果,甚至优于传统的运筹优化方式。
在件量预测、数据中心异常检测等方面,英特尔提供的软硬件一体化支持,也同样在发挥作用,特别是大数据分析技术和至强提供的算力,还具备了规模化迁移部署的能力。
并且对于韵达这样的快递公司来说,之前的“死数据”,现在都能被“活用”。
还因为关键流程上的AI化,带动了更多流程进一步降本增效,并且为更高层级的自动化提供了前提。
此外,在AI赋能的过程中,被关注最多的是模型训练和推理过程,往往忽略了数据存储也已成为不容忽视的前奏一环。
身处电商核心一环的京东,是英特尔分享的另一个重要案例。
京东的核心场景是图像分析和处理。从京东的完整产品目录中提取图像特征,目录中涵盖电脑、玩具和服饰等多种类别,产品数量多达数亿件。
这就需要为图像分析创建高性能的基础设施,该基础设施需要可扩展以应对不断增长的数据库。
在此基础上,还得进一步构建易于开发、且可用于创建新图像分析应用的云分析平台。
起初,京东使用了GPU进行部署。
但挑战也很快出现。一方面,在存储设备和GPU分析集群之间复制数据占用了总处理时间的一半。其次,开始尝试使用GPU进行加速时,发现难以进行开发和执行。
具体是在集群环境中,京东遇到了常见的内存不足错误,以及因GPU内存不足而导致的程序崩溃。
事实证明,在集群中以GPU卡为单位的资源管理和分配工作非常复杂,容易出现错误。在多GPU服务器情况下,京东的开发人员不得不手动管理数据分区、任务均衡和容错。另外还存在诸多依赖性(如CUDA),使生产部署变得十分困难。
在GPU中执行图像处理时,还会出现延迟由于将数据从分布式大数据存储库复制到GPU进行分析,然后再将结果复制回来需要花费时间。
这部分流程所耗费的时间占特征提取总时间的一半。
而目前图像预处理也具有很大的挑战性,因为目前还没有软件框架可支持资源管理、数据处理和容错。
因此,京东需要一个能够以可扩展和可持续的方式,为图像数据库的特征提取流水线提供支持的基础设施。
于是几经辗转后,京东用CPU代替GPU,在基于至强Spark集群上,它可以横向扩展至数百或数千台服务器。
然后通过BigDL面向Apache Spark的分布式深度学习库,能够加载之前已使用GPU资源训练好的Caffe模型,并在现有CPU图像存储架构上重新部署这个模型。
最终,性能提高了3.83倍。
无独有偶,随着AI进一步与更多行业结合,为AI训练和超算定制高性能存储,也成为越来越多公司的需求和机遇。
比如百度智能云,在云服务推进中,打造了一套全闪对象存储方案,导入QLC固态盘+傲腾固态盘组合,专攻AI训练、大数据和高性能计算。
并且效果也能拿数据说话:
文件数据增加10倍、QPS和延迟波动保持在5%以内。
TCO降低60%。
用户业务效率提升1-3倍。
经验四:新领域探索,AI ≠ 深度学习
第四大经验,AI落地不仅要解决当前的痛点,也要基于现状着眼长远。
英特尔最后分享的实践经验中,特别强调的是与南京大学周志华教授团队在深度森林方面的合作成果。
在过去数年中,由于深度学习的空前成功,很多人已经将深度神经网络和AI划上了完全等号。
然而实际上,囿于神经网络算法的特性,深度学习在离散的、非连续可微的数据集上的训练效果并非最优。
同时,它也存在需要海量标注数据、理论分析困难以及过于依赖超参数等短板。
为此,专攻AI的科学家们正推陈出新,积极探寻更多、更新的AI研究方法。
深度森林方法,就是其中较为知名且不断展现成果的新探索。
周志华教授团队提出的深度森林方法,以多层级决策树森林集合的方式另辟蹊径。
通过实验室及真实应用场景的论证,深度森林被证明在金融数据分析、情感分类等需要离散建模、混合建模或符号建模的应用场景中,可取得比深度神经网络更优异的效果。
并且由于深度森林对并行计算的需求远大于矩阵计算,而这正是拥有众核、高频特性的英特尔架构处理器的擅长之处。
因此深度森林从发轫之初,就跟英特尔的AI算力迅速相辅相成。后者提供算力支持,也通过吸收周志华团队的结果反馈,对软件、编译器等实施持续优化。
虽然深度森林相比深度学习是更前沿的探索和研究,但落地也已经开始。
通过与蚂蚁金服进行的合作,深度森林再次被验证可在大规模金融风控任务处理上取得良好效果,进而帮助用户避免不必要的经济损失。
之前还有专门研究成果论文,介绍双方团队在“现金支付欺诈的自动检测”这一任务上,对深度森林的训练效果的验证。
此外,相比深度学习,深度森林在模型可解释性方面也更优秀和高效,于是在要求极高的互联网金融领域,开始得到更多应用和试水。
对于英特尔和CPU来说,深度森林展现的潜力,也是其未来更大可能性的表现之一。
随着深度学习日渐走向“圆满”,而AI落地中需求不断增加,伴随深度森林从“幼苗”开始的CPU,可能会在下一阶段放出更大光亮。
这或许也是英特尔与南京大学在2018年9月正式成立“人工智能联合研究中心”的原因,推动前沿探索,进一步助力AI技术落地,帮助中国AI产业实现真正意义上的“质变”。
总结:落地见真章
最后,概括而言,对于AI计算的关注,是时候从跑分、性能参数的比较,进入到效能变革幅度的对比。
因为AI发展,已经进入了落地为王的竞争,而且只有真正落地,才能最终兑现AI价值。
落地中见问题,落地中见真需求,落地中也才能见真章。
AI计算的竞争,已经来到了2.0时代。
完