图片来源@视觉中国
文 | 孙永杰
对于人工智能发展来说,即将过去的2023年是其发展的重要转折年。这一年,AIGC技术取得了突破性进展,大模型训练、大模型应用等新业务快速崛起,导致对于智算的需求越来越大。据统计,目前全国已投运的智能计算中心达25个,超过30个城市正在建设或提出建设智算中心,而巨大增长的算力需求,吸引了众多企业进入算力领域。由此,智算中心进入到了从所谓的1.0迈向2.0时代的新阶段。
AIGC带来产业机遇,智算中心建设热度持续
2023年,生成式人工智能的爆发带来了历史性产业机遇,正在逐步改造重塑社会、经济、文化等各个领域。GPT-4、LLaMA2等大模型在写文章、对话、企划、绘画、写代码等很多领域已经表现出了让人惊艳的创作能力。未来,AIGC与数字经济、实体经济的深度融合,还将创造出更多颠覆性的社会价值、经济价值。而生成式AI蓬勃发展的背后,算力,尤其是AI算力已经成为驱动大模型进化的核心引擎。
国家信息中心发布的《智能计算中心创新发展指南》(以下简称指南)显示,“十四五”期间,在智算中心实现80%应用水平的情况下,城市对智算中心的投资,可带动人工智能核心产业增长约2.9-3.4倍、带动相关产业增长约36-42倍。智算中心的创新发展,能够带动人工智能及相关产业倍速增长,成为经济增长的新动力引擎。
基于此,目前中国正积极参与到人工智能的发展实践中。
据国际数据公司IDC发布的《2023-2024年中国人工智能计算力发展评估报告》显示,目前67%的中国企业已着手探索生成式人工智能在企业内的应用机会或开始“真金白银”投入。与此同时,中国互联网企业、电信运营商等各方正积极投入到智算中心的建设之中。
说到国内智算中心的建设,其热潮始于2020年,目前已有40+城市建成或正在建设智算中心,包括武汉人工智算计算中心(200P)、南京智能计算中心(800P)、合肥先进计算中心(12P)、鹏城云脑 II(1E)等,其中12个位于“东数西算”八大枢纽,这些智算中心主要由地方政府与企业合建,旨在带动当地产业智能化升级。
此外,国内互联网和AI企业自建的智算中心也是国内智算中心的重要组成部分,如阿里在张北和乌兰察布建设的总规模达15E的智算中心,旨在结合智能驾驶、智慧城市等业务,探索云服务后的智算服务新业态;百度在山西阳泉建设规模4E的智算中心,孵化国内首个正式发布的大模型“文心一言”;商汤作为国内头部AI企业,投资56亿在上海临港建设人工智能计算中心,规模超4E,主要面向智慧商业、智慧城市、智慧生活和智能汽车四大板块,发展AIaaS(AI as a Service)服务。
据不完全统计,截至2023年8月,全国已有超过30个城市建设智算中心,总建设规模超过200亿,且热度还在持续。
从1.0步入2.0阶段,智算中心回归本真
所谓智算中心,《指南》指出,其是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,在推进AI产业化、赋能产业AI化、助力治理智能化、促进产业集群化等方面发挥显著作用。
而基于我们前述国内对于智算中心建设的持续热潮,国家工业信息安全发展研究中心信息政策所发布的《智能计算中心2.0时代展望报告》(以下简称报告)认为,国内智算中心的发展正在从初期以粗放式扩张为特点的1.0走向以精细式规划为特点的2.0阶段。
该报告同时认为,在向2.0阶段的演进中,智算中心应发挥算力基础设施的公共属性,通过合理、多元化的技术配置,使其兼顾通用性和专用性,可让更多领域场景、不同技术路线的应用扎根其上,充分释放每P算力的价值成效。积极推进跨区域的智算中心连入统一算力网络,通过算力、数据的灵活共享和高效调度,促进不同地区、不同应用之间算力峰谷的互补,大幅摊低中小城和企业用户的应用成本,进一步提升其公共性和通用性,促进普惠化发展。
对此,业内专家认为,智算中心建设应以应用为导向,坚持开源开放、集约高效、绿色普惠的建设原则。一方面,智算中心建设要以开放硬件和开源软件为主,融合多元算力,实现算力的聚合、调度、释放;另一方面,要朝着标准化、集约化、低门槛和绿色低碳方向发展,通过算力+算法的一体化、基建化,发挥智算中心普惠高效的赋能效果。
以算力基建化为例,智算中心通过算力基建化,使得AI算力像水、电一样成为城市的公共基础资源,供用户按需使用。为此,智算中心建设要兼顾软硬一体协同,构建多元融合型架构,将通用CPU与多元异构芯片(如GPU、FPGA、ASIC等)集成,融合多种算力,既满足现有客户的现实需求,又适度超前,满足面向未来客户的多元化算力需求。
其实早在2020年,为了推动智能计算中心的建设与发展,国家信息中心信息化和产业发展部已经发布了《智能计算中心规划建设指南》,它也是首份对智能计算中心概念、内涵、技术架构、投建运模式等进行全面解读的权威报告。
该报告公布了智能计算中心技术架构,基于最新人工智能理论,采用领先的人工智能计算架构,通过算力的生产、聚合、调度和释放四大作业环节,支撑和引领数字经济、智能产业、智慧城市和智慧社会应用与生态健康发展。而所具有的开放标准,集约高效、普适普惠的特征与当下智算中心2.0阶段的特征可谓不谋而合。
可见,国内智算中心在经历了近3年的发展,正在回归其本真的属性和目标。
挑战犹存,产业界参与各方仍须努力
纵观当下的智算中心,主要以单供应方全栈体系构建为主,当我们结合前述智算中心的本真属性和目标,不难发现,目前各地智算中心在建设成本、标准、生态、运营等方面均存在不同程度的挑战。
例如在建设成本方面,据国家工信安全中心统计,国内智算中心的平均投资成本高达21.1亿元,最高的成都智算中心的投建成本甚至已超100亿元,整体投建成本高昂。同时,行业价格标准缺失,随之而来的是高昂的投建成本使得后期应用成本增高、投资回收周期增长,给地方政府带来较大的经济压力。具体来看,一方面,高昂的投建成本背离市场经济基本规则,影响公平竞争,也不利于行业良性发展和生态繁荣;另一方面,高昂的投建成本也给地方造成额外的财政负担,与我们前述的智算中心普惠高效的本真属性相悖。
又如在标准方面,因各地智算中心大都是当地政府与AI芯片、整机厂家合作建设为主,技术方案深度绑定,易形成多种派系或者某派系垄断,从而增加客户学习和使用的时间成本,造成智算中心的质量和效能参差不齐。
至于生态方面,相较于国外,由于国内AI起步较晚,在芯片算力和软件栈适配方面均存在差距,加之各自为政的竖井式发展,造成相关应用的适配和跨架构迁移仍存障碍,不利于长期可持续发展。
最后在运营方面,各地智算中心的服务对象多为区域内的行业客户、科研院所和高校,较少考虑全局协同和普惠,从而导致智算中心整体利用率不高和计算资源投资的浪费。
事实是,上述挑战存在造成的弊端已经在国内部分投建或者运行的智算中心有所显现。
例如国内南京某投入运营的智算中心,虽然对外号称其使用率超过90%,但扣除初期免费用户的使用以及其需委托第三方定期提交出口流量报告提交给政府(为了体现利用率)的可操作性等主客观因素,业内预估其实际的利用率可能不超过50%;同样在杭州投建的某智算中心,原本是希望借此打造繁荣密集的人工智能生态产业集群,但实际在投入运营之后,竟陷入因不能满足用户需求而无用户使用的尴尬。
其实不仅是上述城市,在已经投建或者运营智算中心的城市均有类似情况的出现,究其原因,就是在投建和运营的过程中,未能坚持智算中心本真的属性和目标。由此可见,智算中心要想加速从1.0向2.0阶段的迈进,我们相关的产业和企业仍需努力才行。
写在最后:
所谓摸着石头过河,纵观国内智算中心的发展,其经历了对智算中心本真认识到粗放式扩张,再回归本真认识的过程,期间既有成功的经验,也有失败的案例,现在我们再次处在Know How之后的行动阶段,而我们前述《指南》提出的以普适普惠,发挥公共基础设施的社会价值,构建起智算中心集约高效、普惠绿色的运行体系;在智算中心建设上实现“算力基建化”、“算法基建化”、“服务智件化”和“设施绿色化”的所谓“四化”技术路线,让智算中心好用、用好,不失为明智的选择。
风物长宜放眼量,人工智能产业正处于快速发展的阶段,因此,无论是智能算力、算法的研究、应用,还是智算中心的建设,都需要加快步伐跟上人工智能技术的进步,从而提升竞争力和创新力才是根本。