在当前全球进入下一轮科技竞争的关键时刻,如果我们希望继续维系人工智能全球第二大战尝甚至是全球AI应用创新的最大战场,我们显然急需寻找解决方案。
特约撰稿丨沸雪
近期,北京市在通用人工智能产业创新伙伴计划中,明确提出与云服务厂商建立合作,为产业提供算力。
人工智能重新激活了全球科技的竞争,AI能力正在催生大量“新物种”,进化速度一日千里,产业生态成为赢得数字科技竞争的关键要素。
快速行动起来是一种共识。5月5日,中央财经委会议指出,“要把握人工智能新科技革命浪潮”。近期,北京市连续公布两批产业创新伙伴名单,鼓励加快建设人工智能产业发展,从产业伙伴合作方式,构建产业生态。
图/网络
在上述举措中,有两个方向值得关注,其一是明确提出加强与公有云厂商等市场主体合作,首批算力伙伴中即涵盖了阿里云等公有云厂商;其二,计划中涵盖了算力、数据、模型、应用四个类型伙伴,体现了人工智能生态的四个生长方向。
大模型和智能应用都不是单点技术的突破,不仅是一套算法或技术的突破,而是对底层算力基础设施的极大挑战,更是从“公有云+AI”技术体系的全面创新技术创新生态从来没有像今天这样重要。
01
不要忽视算力的力量
新一轮的人工智能浪潮将带来巨大的算力需求。算力被认为是大数据时代的生产力,当数据要素成为驱动经济发展的重要要素,毫不夸张地说,算力就是支撑国民经济发展的原动力之一。
而自从2023年以来,伴随数字经济的高速发展,特别是人工智能的爆发,整个社会对算力的需求呈现快速增长态势。
国际数据公司(IDC)在《2022全球计算力指数评估报告》中指出,中国的算力产业规模和多样性目前正持续高速增长,2018年-2022年,北京、杭州、深圳的算力规模位居全国前三。
扩充算力规模正成为区域中心城市经济发展的必然要求。以北京为例,这种布局也早就已经正在展开。
近期,在全球人工智能领域占有重要地位的北京,短短一个月时间,就连续发布3个支持鼓励人工智能发展的政策文件:
4月27日,北京市发布《加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025 年)(征求意见稿)》,明确提出充分利用云厂商算力供给能力,实施算力伙伴计划,整合公有云算力租赁资源,向人工智能创新主体开放,加快建设具有全球影响力的人工智能创新策源地;
5 月 12 日,北京市发布《促进通用人工智能创新发展的若干措施(2023-2025 年)》提出,加强与头部公有云厂商等市场主体合作,实施算力伙伴计划;
5月19日,北京市经信局联合市科委、中关村管委会、市发改委共同启动“北京市通用人工智能产业创新伙伴计划”。第一批伙伴成员共有39家,包括阿里云计算有限公司、北京超级云计算中心等。7月2日,全球数字经济大会人工智能峰会又发布了第二批伙伴名单。
从这些文件中我们能够看到一些关键词,公有云、算力伙伴、人工智能创新。其实,这也算得上是在面对可能到来的封锁时不多的好消息基于本土公有云的算力布局已经在加速之中。
图/网络
事实上,从全球最优秀公司的成功案例来看,公有云与应用的相互耦合、形成闭环的“飞轮效应”正在日益凸显。其中做的最好的,就是云计算领域的全球领军者AWS。
从2006年8月AWS对外提供亚马逊弹性云至今,作为亚马逊的云计算板块,其存在并不是孤立的,而是打通了亚马逊的业务线,并使其在新技术的迭代和应用上获得了极大的优先机会。
我们把视线拉回国内,从2010年阿里云对外公测算起,中国云计算领域的发展也取得了巨大进展。如今,作为全球排名第三、中国第一的阿里云,其在人工智能领域的创新速度也并不逊色国外厂商。
其实,在大家能够看到的通义千问背后,是阿里云基于多年积累的技术,已经可以基于智能计算灵骏在公有云上打造一个“10万卡”体量的超大规模智算集群,并且解决了关键的网络、数据存储、算力的可观测、可调度和负载平衡等核心技术问题,构建了一个从集群IaaS到PaaS到MaaS全栈式AI的服务,方便各行各业的大模型厂商和企业客户使用。
这也应该是阿里云成为北京市第一批算力合作伙伴的原因。
02
集中力量办大事
想要算力为人工智能加速,我们的布局究竟如何提升效率?其实在北京市的“创新伙伴计划”中就给出了一条明确答案:加快归集现有算力,为市场主体提供多元化优质普惠算力。
而如果要进行算力归集,留下的选择并不算多,云计算是最优先的选项。这是因为,云这种商业模式本身就是集中建设、运维、弹性收缩,向全社会提供算力资源是最高效、成本最低、利用率最高的方式。
换句话说,对整个社会来说,算力资源分散所导致的低效率、高耗能,无论从哪个角度来看都是弊大于利的。
而相比私有云和混合云,公有云的效率无疑是最高的。通过多租户的弹性使用,资源利用率能够得到进一步提升。
数据显示,公有云对CPU的使用效率,大概可以相当于私有云的5-10倍。就像350公里时速的“高铁”VS 60公里的“绿皮车”。使用效率提升5-10倍,服务器节省3000亿元人民币,电费节省800亿度,这是相当于一个三峡的电力损耗规模。
即便是从双碳的视角来观察,公有云也是最优选项。以复旦CFFF平台为例,阿里云绿色数据中心技术结合乌兰察布当地天然的气候优势,平台每年可节省总电力超过2000千瓦,节省电费500万元,年均节碳量达15吨。
图/图虫创意
但从当下来看,更为关键也更为核心的堵点在于,算力资源分散其实可能并不是技术路线的选择问题。
能够看到,在人工智能产业的带动下,新建智算中心成为一种潮流,但许多智算中心并不能呼应市场需求,缺乏市场化运营机制,导致严重的资源浪费。
有数据统计,非公有云的智算中心CPU利用率远低于云数据中心,资源长时间处于闲置状态,甚至会出现“数字烂尾楼”。
此外,许多中小规模的传统数据中心和智算中心采用的硬件、软件、模型框架等服务器技术体系,无法与 CUDA 等国际主流开源框架兼容,不具备“一云多芯”的能力,不支持 AI 开源模型,若要实现兼容,需要较高定制开发成本。
以私有部署最主流的OpenStack开源框架为例,这已经是美国淘汰的落后生产力,但在中国的数据中心却广为流行,OpenStack只能预分配计算资源,无法实现公有云的弹性资源调度,不仅造成资源浪费,而且无法承担需要统一调度的超大规模计算任务。
而“数字烂尾楼”所造成的后果也很明显:不仅会造成算力资源的浪费,而且在新建硬件基础设施上投入过大,反而忽略了人工智能的产业和生态建设。
03
关键时刻,破局之道
当有国内大模型厂商把距离chatGPT只有几个月差距作为大模型噱头时,这背后其实暴露的问题是,留给我们的时间,可能并没有我们想象中的那么多。
人工智能发展速度一日千里,技术追赶的时间窗口正在不断缩校它已经不是用年、月来计算,可能是要以日、甚至分秒计算。
从chatGPT的母公司OpenAI选择来看,其和手握海量云上算力资源的微软绑定,不仅在Auzre上训练出了引领全球新一轮AI浪潮的大模型ChatGPT,还将基于微软公有云提供服务,让开发人员将定制化AI体验集成到自己的应用程序中。模型和公有云形成算法和算力的飞轮效应,高速运转巩固自己的先发优势。
好在我们也不是没有具备同样竞争优势的公司。像阿里云这样的规模化公有云厂商已经深入介入大模型的研究,在不久前发布了通义千问大模型,还将钉钉、天猫精灵等产品接入大模型进行测试。
▲通义千问大模型(图/网络)
公有云+AI正在一种新的人工智能生态,云计算不仅是AI大模型的训练和推理底座,还是大模型服务和应用的提供模式,就像阿里云发起的中文AI模型开源社区“魔搭”,形成MaaS模式,通过云计算将300多个模型开源给研究者和团队。
最近半年,中国大模型市场百花齐放,不仅是在“炼大模型”的方面,在产业落地上,以阿里云为首的科技企业也在尝试建设行业大模型。
不久前,阿里云宣布联合行业伙伴,打造金融、交通、通信、能源、电力等多个行业的专属大模型。在行业领域实现大模型的应用突破,这可能也将会是我们在全球科技竞争中破局的关键所在。
4 月 28 日,中央政治局会议指出,“要重视通用人工智能发展,营造创新生态,重视防范风险”;5 月 5 日,二十届中央财经委员会第一次会议指出,“要把握人工智能等新科技革命浪潮”。
在今年的达沃斯论坛上,总理也进一步强调了人工智能技术的重要性。2022 年底 ChatGPT 发布以来,人工智能大模型“涌现”能力催生大量“新物种”,产业生态成为中美赢得数字科技竞争的关键要素。
能够看到的是,自今年开年以来,中国科技公司们集体下场竞速的“百模大战”,已经在全球范围内掀起了巨大风浪从比尔盖茨、马斯克的到来,再到一度传出“登陆”传言的英伟达CEO黄仁勋,都足以证明,即便是全球人工智能关键领域的掌门人,也依然极为看重中国市场的创新变化。
在当前全球进入下一轮科技竞争的关键时刻,如果我们希望继续维系人工智能全球第二大战尝甚至是全球AI应用创新的最大战场,我们显然急需寻找解决方案。
而如今摆在我们面前最为现实也是最具有破局可能性的,就是为那些本身就跑得最快的企业们赋能。
尽管那些抢跑的科技公司们现阶段可能还面临诸多问题,但毫无疑问,他们的快速反应和抢跑再一次证明了一个问题正如近期有媒体社论所指出的那样,到底谁才是科技进步、经济增长的主力军,是全球科技竞速的“关键先生”。
这是我们的既有优势,也是我们能够在下一个人工智能时代继续抢占先机的关键所在。