2024年7月4日~6日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)在上海圆满召开。当今全球生成式人工智能(AI)发展热潮正加大对“算力”的需求,这也成为本届大会的重要议题之一。
作为AI生态基础设施的重要组成部分,包括华为、浪潮信息、中兴通讯、壁仞科技、摩尔线程、燧原科技、国科微、无问芯穹、天数智芯、联想、中科曙光在内的中国GPU芯片与设备公司,以及中国电信、中国联通、中国移动等头部算力企业,均在WAIC 2024大会精彩亮相,展示一系列助力我国AI算力发展“破局”的成果。
算力步入万卡时代,多种难关亟待攻克
2022年ChatGPT-3.5大模型横空出世,引发全世界生成式AI浪潮,彼时这一大模型规模约为1750亿个参数,然而2023年推出的ChatGPT-4,参数迅速膨胀至1万亿个。如此体量的大模型,建设超过1万张GPU加速卡的算力集群必不可少。
在7月6日WAIC举办的中兴通讯AI创新生态论坛,中国工程院院士郑纬民指出,“人工智能发展有三驾马车,其中一驾就是算力。”步入万卡集群时代,数据中心将面临一系列全新挑战需要攻克。郑纬民表示,万卡时代GPU之间的互联是大问题,如何实现高带宽、低时延连接?将是提高计算效率的重点。此外作为万卡规模的数据中心,可能2~3小时就会发生一次故障,如何应对故障率增加的问题同样是一大挑战。
郑纬民指出,尽管目前英伟达占据AI GPU龙头位置,性能领先,但是目前基于国产AI芯片的系统,最关键的差距并不在算力方面,而是生态。他表示,之前许多企业并不愿意使用国产AI芯片方案,最核心的问题在于国产AI芯片的软件生态不好,易用性方面与英伟达相比有明显差距。为此,郑纬民提出国产软件生态需解决的重点,包括编程框架、并行加速、容错系统等。
目前,我国算力基础设施规模位居全球第二,截至2023年底,我国在用数据中心机架总规模超过810万架,算力总规模达到230EFlops;以闪存技术为代表的先进“存力”不断提高,在部分行业占比超过25%。郑纬民认为,尽管目前我国算力行业面临国外算力获取难、国产算力使用难/效率低、国产算力种类多等痛点,但只要解决关键问题,一定可以构建开放解耦、互联互通的国产算力新生态。
助力生成式AI,国内算力企业深度赋能
为解决当前算力提升瓶颈难题,助力我国生成式AI进一步发展,本届WAIC各大厂商带来一系列解决方案,涵盖“云、边、端”各个应用场景。以下为集微网对本届大会亮相的重点国内算力企业进行盘点:
壁仞科技:三个维度解决算力瓶颈
壁仞科技创立于2019年,致力于研发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。在7月5日举办的“智启新章算引未来”AI基础设施论坛,壁仞科技副总裁兼AI软件首席架构师丁云帆表示:“解决算力瓶颈问题需要从三个维度考虑:硬件集群算力、软件有效算力、异构聚合算力。”
丁云帆称,在硬件集群算力维度,壁仞科技在行业中相对领先,2020年设计的第一代产品里面就做了chiplet的架构,兼具DSA和通用GPU两个优势,是当前行业主流能够突破摩尔定律的解决方案。壁仞科技同样注重互联能力,支持单节点8卡全互连,目前已推出千卡集群建设方案,并可扩展至万卡规模。在软件效率方面,通过优先级、资源配额、弹性训练等多种手段来提升集群的调度效率,真正发挥硬件算力优势。此外,壁仞科技同样开发了异构聚合算力技术,支持壁仞GPU与英伟达A100 GPU协同训练,效率超过90%。
如何解决郑纬民院士提出的“高故障率”“并行难”问题?在7月6日举行的“中兴通讯AI创新生态论坛”,丁云帆介绍,与中兴通讯合作开发大型计算集群的3D并行、弹性训练技术,能够自动进行故障迁移,灵活应对故障;创新的网络拓扑,也能够减少网络拥塞风险。
对于AI芯片企业来说,在不断攻克技术难点的同时,需提前进行算力建设规划。7月4日,壁仞科技联合创始人兼COO张凌岚在圆桌会议表示,AI算力芯片的迭代周期通常为两年至三年,远远慢于应用侧的迭代速度。今年壁仞科技将重点发展两部分:一是进一步完善软件平台,让现有产品尽快适配全新的应用需求;二是在下一代产品中前瞻性地预见市场趋势带来的技术需求,并提前在设计中布局。
摩尔线程:AI旗舰产品夸娥升级
摩尔线程此次参与WAIC 2024,宣布其AI旗舰产品夸娥(KUAE)智算集群解决方案升级,在GPU显存和传输带宽方面,夸娥万卡集群具备PB级显存总容量、每秒PB级超高速卡间互联总带宽和节点间互联总带宽,全面提升集群计算性能。
摩尔线程称,希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题。此外,该公司同时推出夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题。
燧原科技:智算中心在多地落地
燧原科技在WAIC现场展示了展示了智算中心落地案例和里程碑系列产品,还为与会者带来了基于燧原算力的AIGC交互体验站,展示其最新商业落地成果及规模化应用。
在生成式人工智能(AIGC)应用方面,燧原科技现场展示编程助手、AI视频生成、3D生成等交互技术。由燧原和智谱AI合作的大模型编程助手一体机,基于云燧i20推理加速卡,能为软件开发企业提供代码生成、代码翻译、代码注释、代码补全、智能问答等多种服务。
无问芯穹:千卡规模异构芯片混训平台
无问芯穹联合创始人兼CEO夏立雪,在7月4日WAIC现场发布了千卡规模异构芯片混训平台,称这一训练集群算力利用率最高达到了 97.6%。夏立雪宣布,无问芯穹 Infini-AI 云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性。
无问芯穹同样展示其Infini-AI大模型开发与服务云平台,并表示7月起,通过试训申请的用户,已可在Infini-AI上一键发起700亿参数规模的大模型训练。
天数智芯:自研通用GPU产品矩阵
天数智芯连续4年参加WAIC大会,该公司表示,联合合作伙伴推出的大模型推理16卡服务器,搭载16张自主研发的智铠100推理卡,性能和性价比达到国际一流水平。天数智芯宣布,与爱特云翔合作建设千卡GPU算力集群,可支持千亿以上参数大模型的全量预训练,支持客户进行微调、参数高效微调等服务,解决了大模型训练高端算力紧缺的瓶颈问题,从算力底层支持国产大模型创新发展。
协力共创,打造中国AI生态
我国人工智能的发展,效率、生态是一大瓶颈。为齐心协力推动我国AI算力及应用建设,多家企业拿出了开放包容的态度,携手打造中国AI生态。
壁仞科技联席CEO李新荣强调,人工智能是一个庞大的系统工程,人工智能产业形成的三大要素包括:数据、算力、算法。融合三大要素的AI生态集成、生态建设,需以软硬件整合的方式实现。
壁仞科技丁云帆介绍,壁仞科技构建了开放的BIRENSUPA软件生态系统,携手合作伙伴和客户共同推进大模型产业生态的发展,为国产GPU在千卡集群规模上实现商用落地提供了有力支持。这一平台包含编译器、多种工具链,支持主流深度学习框架和自研推理加速引擎,并配备针对不同场景的应用SDK等,能够助力开发者实现软硬件协同,探索未来的无限可能。目前壁仞科技《BIRENSUPA编程模型白皮书》现已正式公开。
在WAIC大会期间,壁仞科技对外宣布,搭载壁砺系列通用GPU算力产品的中国移动智算中心(呼和浩特),近日成功上线运营。据了解,中国移动智算中心(呼和浩特)属于全国型N节点万卡训练场,单体算力6.7EFLOPS(FP16)。采用万卡高速互联、软硬全链路监控等高新技术为AI业务保驾护航,同时通过液冷机柜、闭式冷却塔、智能小母线等绿色节能技术,实现设计PUE值平均为1.15。今年5月,壁仞科技正式获颁中国电信“云网基础设施安全国家工程研究中心云计算合作伙伴”;在WAIC大会期间,中国电信发布了四大AI联创基地,壁仞科技作为中国电信的算力合作伙伴参与其中,共同为人工智能大模型场景应用助力赋能。
摩尔线程表示,万卡集群的建设需要产业界的齐心协力,为实现大模型创新应用的快速落地,让国产算力“为用而建”。发布会现场,摩尔线程携手中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司(排名不分先后),分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。
本届WAIC,燧原科技表示正在推进“燎原”生态合作计划,以全国算力一体化布局的智算中心算力网络为根基,在燧原自主技术体系的基础上,发展云服务、大模型、垂直模型(ISV)、AIDC集成部署运营运维等战略生态伙伴,打造从算力建设到应用的完整落地闭环。目前,燧原科技已在四川成都、湖北宜昌和甘肃庆阳展开了智算中心的建设及合作。其中,宜昌点军智算中心仅用1年时间完成了300P国产算力建设和交付,并实现了上线全消纳。
无问芯穹在4个月前,宣布其Infini-AI大模型开发与服务云平台宣布首次公测,已有智谱AI、月之暗面、生数科技等大模型公司客户在Infini-AI上稳定使用异构算力,还有20余家AI Native应用创业公司在Infini-AI上持续调用各种预置模型API,使用无问芯穹提供的工具链开发自身业务模型。此举将打通异构新品生态,持续降低大模型应用落地成本。
天数智芯表示,天数智芯通用GPU产品适配主流CPU芯片/服务器厂商,能够支持国内外主流AI生态和各种深度学习框架,通过标准化的软硬件生态接口为行业解决产品使用难、开发平台迁移成本大等痛点,大幅缩短适配验证周期,实现业务系统的无缝使用,可以灵活支持各种算法模型,便于客户自定义开发。
集微网了解到,本届WAIC 2024,中国电信领衔承办主题论坛,聚焦中国电信智算及大模型能力规划;中国联通在“AI+赋能,智算未来”论坛上启动“上海联通新一代智算中心”,加快国产算力布局;中国移动举办以“AI赋能,创见未来”为主题的生态论坛,并正式启动五个“100”人工智能生态计划。
其它厂商方面,在“2024腾人工智能产业高峰论坛”中,华为携手生态伙伴首发腾AI新品,展现AI算力领域的技术与商业合作新样本;中兴通讯展示端到端的全栈全场景开放解耦的智算解决方案,覆盖智算、通算、存储全场景组网;算能科技携算力处理器、RISC-V融合服务器智算集群、多样大模型体验区、云边端全场景智能生态产品等亮相展区;商汤科技带来国内训练大模型的先进基础设施,SenseCore商汤大装置总算力规模高达12000PFLOPS,可支撑超过20个千亿超大模型同时训练。
随着AI大模型引发全球新一轮科技浪潮,我国算力产业在压力之下正在蓬勃发展,各项创新技术不断涌现。除了技术领域,目前我国同样注重AI产业安全与风险,已建立了一套涵盖产业应用、算法、算力、数据等方面的治理规则。
壁仞科技张凌岚强调,壁仞科技对未来AI算力芯片的市场前景和技术落地充满信心。未来,随着国产AI算力芯片陆续落地,我国多产业的数字化转型有望进一步加深。李新荣表示,希望早日实现自主可控的国产供应链,同时搭建一个覆盖全产业的软件生态合作平台。壁仞科技不只是国产大模型训练的支持者,同时也希望能够积极支持并且利用自有的资源来推动产业协作。
本届WAIC 2024大会,吸引来自50多个国家和地区的嘉宾、观众前来,汇聚1300位全球领军人物,9位图灵奖、菲尔兹奖、诺贝尔奖得主,以及88位国内外顶级院士,线下参观人数突破30万人次。
如今万卡计算时代正逐步到来,AI基础设施提供的强大算力,正为生成式AI、大模型前沿创新提供充足的想象空间。本届WAIC 2024汇聚全球AI领域前沿技术与成果,促成产学研各界的深度对话。通过不断创新的架构和开源开放的生态系统,未来中国算力产业必将持续取得突破性进步,紧紧跟随世界前沿。从长远看,人工智能必将成为推动产业经济发展的关键,随着各类应用逐步落地,AI将深入赋能千行百业,成为我国创新与发展的得力助手。