无界的算力供应是当下的刚需。
作者 | 杏花
编辑 | 青暮
世界顶级机器学习专家Michael I.Jordan曾提出一个观点,他认为人工智能正逐步由原理性研究,走向人工智能大工程。
Michael I.Jordan认为,随着机器学习的蓬勃发展,人工智能的目标已发生了本质性变化,不再只是研究如何在单个计算机上复现人类智能,更重要的是如何构建现实世界中的系统,从而解决现实世界中的超大规模问题,比如蛋白质结构预测、药物研发、高能物理实验分析等基础科研问题。
复现人类智能和基础科研的问题复杂度截然不同,前者可大可小,后者一般都是大规模问题,同时还经常遇到组合爆炸困难。例如,在蛋白质结构预测中,随着蛋白质的组成也就是氨基酸数量的增加,其复杂度是呈指数式增长的,这就对算力的高效、高端供应提出了很高的要求。
此外,AI模型的训练和推理所需要的算力规模也大不相同。整型算力(比如INT8)可以支撑AI推理,但要支撑AI训练,至少需要半精度算力(FP16)。
而随着AI深入各行各业,接触的场景也将愈加丰富和繁杂,不能一概而论。
总体而言,人工智能算法的基础设施智能计算面临着越来越多样化的算力需求,对每一个具体问题都需要配置不同的算力供给方案,否则容易造成资源浪费。
其实这也是如今数字化时代面临的重大难题,面对硬件、算力、算法、技术的组合爆炸现象,为了获得最大的投入产出比,四者的深度联动融合成为了必要条件。这就对算力供应的无界性提出了很高的要求。
在这一需求的推动下,曙光智算推出了「智算+」API新模式,以此来实现无界的算力供应。
1
「智算+」API:如鱼得水
面对多样化算力供应的需求,曙光智算早就做好充足准备,比如,曙光智算已经为许多大型企业提供AI应用的支撑。
灵活而多样的算力配置是复杂的数学问题,但曙光智算却化繁为简,只对外提供即插即用式的接口,这正是「智算+」API新模式。
「智算+」API新模式,依托于曙光智算API接口。基于该API接口,AI研究人员无需任何算力配置的专业知识,便可轻松接入资源庞大的曙光计算服务平台,实现AI模型训练、推理等操作,从而加快、简易化整个研发流程。
无界的两大含义向内多样化、向外简易化,被「智算+」API诠释透彻。
图注:曙光智算服务架构
通过开放API,曙光智算可为SAAS服务提供商、应用软件提供商、第三方算力服务商提供多样化的算力服务,分别对应3种集成模式:
首先是平台集成。该模式主要面向第三方算力服务商,具体来说是,基于曙光智算AC平台服务和「智算+」API,将第三方算力服务商平台入口集成到曙光统一服务平台(AC平台),底层使用曙光自运营算力。
AC平台将多个智能计算中心通过数据互联互通,从而进行跨中心的管理和调度,并以API或非API的形式对外服务。
其中,智能计算中心采用专有的调度引擎,来协同计算资源。所谓调度也就是对于特定的问题,选择不同的建模(比如SVM、CNN等)和计算方式(比如BLAS、AVX等并行模式)。
其次是应用集成。该模式主要面向应用软件提供商,为包含多个软件的应用商城提供强大而灵活的算力。具体来说是,将第三方应用部署到曙光智算现有算力资源中,并依托平台监控管理模块对应用程序进行管理、调度、性能监控、提供优化指导等。
目前应用商城已经集成海量商业应用Portal和开源应用软件,比如人工智能类软件包括了TensorFlow、PyTorch等深度学习框架,以及Hadoop、Spark等数据分析框架。
最后是服务定制。该模式主要面向第三方算力服务商和SAAS服务提供商,为前者提供多种类型的明确算力需求,为后者提供单个大型云端软件的按需即用功能对应的算力。
简而言之,就像现代社会的电网、互联网一样,「智算+」API也将作为基础设施一般的存在,既重要又无处不在,但给人的感觉仿佛不存在,这正是最好服务的内涵所在。依托这类高端计算的支撑,人工智能领域的学术研究和产业落地也将“如鱼得水”般加速前行。
自上线以来,曙光计算服务已经广泛应用于多个领域并探索出一套适配的行业解决方案。
例如在人工智能领域,百度飞桨与曙光智算合作,已实现「智算+」API与Paddle2.x的适配,国产X86及其加速卡版作为常用分支合入官方GitHub仓库,支持安装包直接安装,实现与GPU的API接口统一。此外,通过将「智算+」API对接AI Studio,百度飞桨还可为开发者提供人工智能学习、实训、比赛的算力资源。
曙光智算还助力复旦大学类脑智能科学与技术研究院,构建并利用多模态多尺度脑数据库,发展了模式识别、深度学习等类脑智能方法。其中,「智算+」API为研究院提供了数百独占节点+上千个动态节点,协助完成了从CUDA生态到国产异构加速生态的代码迁移、应用优化等工作。
2
计算新时代:开放无界
以AC平台和「智算+」API为基础,曙光智算正在以“横向耦合、纵向解耦”的方式,来推动硬件、算力、算法、技术的深度联动融合。
在AI领域中,深度学习盛行的当下,人工智能近乎有了一致的数学语言,同时也就有了更加灵活的协同效应,而耦合与解耦的协同也在深度学习领域发挥重要作用。比如在一般的全连接神经网络自身效率不高时,就要通过内部“横向耦合”来深入地探索合适的机制,最终具有更强适应性的Transformer架构脱颖而出。之后,与数据、任务等要素“纵向解耦”,Transformer成为如今适用多种任务的大模型的标配,并且不仅仅限于类人智能,蛋白质结构预测等科学计算任务亦被证实利用Transformer是可行的,基于Transformer的大模型也在通用AI的探索路径上被寄予厚望。
可以说,AI的技术演变如今也呈现向内多样化、向外简易化的模式。
同样,算力的耦合与解耦的协同也在曙光智算的设想之中。基于这种协同作用,并凭借20多年的从业经验、统一和商业化的运营模式、丰富的多类型资源、超高速的计算/存储网络、安全的设计标准,曙光智算将打造算力的“无界”生态。
首先,AC平台将不同的智能计算中心进行内部“横向耦合”,如同调整神经网络中错综复杂的连接和激活机制一般,通过深度的融合来得到“强适应的Transformer”,也就是规划出多样的算力配置方案,体现资源无界优势;其次,「智算+API」则像经过千锤百炼的Transformer模型,以“好用、通用黑箱”的、“纵向解耦”的方式,最大限度推动硬件资源、算力网络、算法应用之间的协调适配,以实现计算价值最大化,体现技术无界优势。
最后,在资源无界、技术无界的推动下,曙光智算得以打造全产业链共享的算力生态,以“零门槛”方式最大限度接入产业链上下游相关方,破除信息孤岛,推动打造超连接、共进化的无界生态系统,实现无界生态的持续创新、升级。
「智算+」API新模式,诠释了曙光智算的算力“无界”的终极奥义,从资源、技术、生态三个层面构建“开放无界”的算力平台,引领计算产业迈入互利共赢的新时代。
雷峰网 雷峰网