11月4日,第二届开放原子开源基金会 OpenHarmony技术大会在京召开。中国工程院院士、清华大学计算机系教授郑纬民在会上表示,要大力开展基于国产AI芯片大模型基础设施研究,完善国内AI生态系统建设,做好整体系统工程化,关注软硬件协同设计,解决大模型基础设施建设的关键问题。
郑纬民坦言,国内AI生态尚未建设完善,“国产AI芯片只要达到国外芯片60%的性能,如果生态做好了,客户也会满意。大多数任务不会因为国产芯片性能只有(国外芯片性能的)60%而有明显感知,大家感觉到的不好用还是生态不行。即使硬件做的很好,甚至比国外做的更好,但如果生态没有做好,依然不被喜欢”。
软件主要提供的是灵活性和效率提升,硬件算力提供了最基本的资源基矗要建好生态,首先要做好整体系统工程化、软硬件协同设计。当前,新型硬件的使用对软件系统设计提出了巨大挑战。比如,随着应用程序对算力需求的日益提升和摩尔定律的逐渐放缓,新型计算硬件,特别是异构加速处理器,成为了高性能计算发展的主流;为了打破存储墙对应用程序计算性能的桎梏,新型存储器件,如固态存储设备SSD等,也被广泛应用于高性能计算机。
与此同时,人工智能、图计算、大数据等的广泛应用让软件也变得更为复杂。如何在新型硬件系统上设计与优化新型应用程序,新的硬件、新的软件如何做优化设计、做适配,成为一个亟待解决的关键问题。
人工智能计算具有计算密度高、需要大量低精度计算的特点。郑纬民指出,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,传统的单机单卡模式已经无法满足超大模型进行训练的要求,包括数据并行、模型并行、专家并行在内的并行训练已成为大模型训练的“标配”。
比如在国产的新一代神威高性能计算机中,包含了96000个节点、37440000个核心以及互连网络。神威采用的是新一代体系结构芯片神威26010pro,以及支持MPI通信的国产自主高速网络。神威超级计算机契合了大规模预训练模型的需求。据悉,郑纬民院士团队在国产E级高性能计算机上训练了一个170万亿参数的超大规模预训练模型,模型参数可与人脑中的突触数量相媲美。
“在训练这一超大规模预训练模型中,需要考虑四个问题:一是半精度运算性能与双精度运算性能的平衡;二是网络平衡设计;三是内存平衡设计;四是核心子系统平衡设计。这四点做好了,别人要用1万块AI芯片训练大模型,我们只用9000块就可以了。”郑纬民感叹说道。
生态是一切产业发展的基矗完善的生态可以加速知识、技术、应用场景的积累,使创新成果更快地转化为产品,连接产业链上下游,也可以为人才的培养和流动提供良好平台。
郑纬民表示,在数字经济时代,摩尔定律的持续实现,为人工智能的进一步发展提供了关键的基础,需要通过软硬件密切协同,才能进一步加速算力提升和使用效率。算力、网络具备很强的公共基础设施特性,只有加快建立一个开放性的产业生态,把选择权交给用户,才能驱动行业百花齐放,从而真正促进大模型产业的健康发展。