图片来源@视觉中国
文|睿洞察
从2022.11.30的ChatGPT,到2023.6.13的360智脑大模型2.0,全球AI界已为大模型持续疯狂了七个多月。ChatGPT们正如雨后春笋般涌现,向AI市场投放一个个“炸弹”:办公、医疗、教育、制造,亟需AI的赋能。
而AI应用千千万,把大模型打造好才是硬道理。
对于大模型“世界”来说,算法是“生产关系”,是处理数据信息的规则与方式;算力是“生产力”,能够提高数据处理、算法训练的速度与规模;数据是“生产资料”,高质量的数据是驱动算法持续迭代的养分。在这之中,算力是让大模型转动的前提。
我们都知道的是,大模型正对算力提出史无前例的要求,具体的表现是:据英伟达数据显示,在没有以Transformer模型为基础架构的大模型之前,算力需求大致是每两年提升8倍;而自利用Transformer模型后,算力需求大致是每两年提升275倍。基于此,530B参数量的Megatron-Turing NLG模型,将要吞噬超10亿FLOPS的算力。
(AI不同模型算法算力迭代情况 图源:格隆汇)
作为大模型的大脑AI芯片,是支撑ChatGPT们高效生产及应用落地的基本前提。保证算力的高效、充足供应,是目前AI大算力芯片厂商亟需解决的问题。
GPT-4等大模型向芯片厂商狮子大开口的同时,也为芯片厂商尤其是初创芯片厂商,带来一个利好消息:软件生态重要性正在下降。
早先技术不够成熟之时,研究者们只能从解决某个特定问题起步,参数量低于百万的小模型由此诞生。例如谷歌旗下的AI公司DeepMind,让AlphaGO对上百万种人类专业选手的下棋步骤进行专项“学习”。
而小模型多了之后,硬件例如芯片的适配问题迫在眉睫。故,当英伟达推出统一生态CUDA之后,GPU+CUDA迅速博得计算机科学界认可,成为人工智能开发的标准配置。
现如今纷纷涌现的大模型具备多模态能力,能够处理文本、图片、编程等问题,也能够覆盖办公、教育、医疗等多个垂直领域。这也就意味着,适应主流生态并非唯一的选择:在大模型对芯片需求量暴涨之时,芯片厂商或许可以只适配1-2个大模型,便能完成以往多个小模型的订单。
也就是说,ChatGPT的出现,为初创芯片厂商们提供了弯道超车的机会。这就意味着,AI芯片市场格局将发生巨变:不再是个别厂商的独角戏,而是多个创新者的群戏。
本报告将梳理AI芯片行业发展概况、玩家情况,总结出大算力时代,玩家提高算力的路径,并基于此,窥探AI大算力芯片的发展趋势。
国产AI芯片,正走向AI 3.0时代
现阶段的AI芯片,根据技术架构种类来分,主要包括GPGPU、FPGA、以 VPU、TPU 为代表的 ASIC、存算一体芯片。
根据其在网络中的位置,AI 芯片可以分为云端AI芯片 、边缘和终端AI芯片;
云端主要部署高算力的AI训练芯片和推理芯片,承担训练和推理任务,例如智能数据分析、模型训练任务等;
边缘和终端主要部署推理芯片,承担推理任务,需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。
根据其在实践中的目标,可分为训练芯片和推理芯片:
纵观AI芯片在国内的发展史,AI芯片国产化进程大致分为三个时代。
1.0时代,是属于ASIC架构的时代
自2000年互联网浪潮拉开AI芯片的序幕后,2010年前后,数据、算法、算力和应用场景四大因素的逐渐成熟,正式引发AI产业的爆发式增长。申威、沸腾、兆芯、龙芯、魂芯以及云端AI芯片相继问世,标志着国产AI芯片正式启航。
2016年5月,当谷歌揭晓AlphaGo背后的功臣是TPU时,ASIC随即成为“当红辣子鸡”。于是在2018年,国内寒武纪、地平线等国内厂商陆续跟上脚步,针对云端AI应用推出ASIC架构芯片,开启国产AI芯片1.0时代。
ASIC芯片,能够在某一特定场景、算法较固定的情况下,实现更优性能和更低功耗,基于此,满足了企业对极致算力和能效的追求。
所以当时的厂商们,多以捆绑合作为主:大多芯片厂商寻找大客户们实现“专用场景”落地,而有着综合生态的大厂选择单打独斗。
地平线、耐能科技等AI芯片厂商,分别专注AI芯片的细分领域,采用“大客户捆绑”模式进入大客户供应链。
在中厂们绑定大客户协同发展之际,自有生态的大厂阿里成立独资芯片公司平头哥,着眼AI和量子计算。
2019年,平头哥发布的第一款AI芯片含光800,便是基于ASIC架构打造,用于云端推理。据阿里介绍,1颗含光800的算力相当于10颗GPU,含光800推理性能达到78563 IPS,能效比500 IPS/W。相比传统GPU算力,性价比提升100%。
在1.0时代,刚出世的国内芯片厂商们选择绑定大客户,有综合生态的大厂选择向内自研,共同踏上探索AI芯片算力的征途。
2.0时代,更具通用性的GPGPU“引领风骚”
尽管ASIC有着极致的算力和能效,但也存在着应用场景局限、依赖自建生态、客户迁移难度大、学习曲线较长等问题。
于是,通用性更强的GPGPU(通用图形处理器)在不断迭代和发展中成为AI计算领域的最新发展方向,当上AI芯片2.0时代的指路人。
自2020年起,以英伟达为代表的GPGPU架构开始有着不错的性能表现。通过对比英伟达近三代旗舰产品发现,从FP16 tensor 算力来看,性能实现逐代翻倍的同时,算力成本在下降。
于是,国内多个厂商纷纷布局GPGPU芯片,主打CUDA兼容,试探着AI算力芯片的极限。2020年起,珠海芯动力、壁仞科技、沐曦、登临科技、天数智芯、瀚博半导体等新势力集结发力,大家一致的动作是:自研架构,追随主流生态,切入边缘侧场景。
在前两个时代中,国产AI芯片厂商都在竭力顺应时代潮流,前赴后继地跟随国际大厂的步伐,通过研发最新芯片解决AI算力芯片的挑战。
我们能看到的变化是,在2.0时代中,国产AI芯片厂商自主意识觉醒,尝试着自研架构以求突破。
3.0时代,存算一体芯片或成GPT-4等大模型的最优选
ASIC芯片的弱通用性难以应对下游层出不穷的应用,GPGPU受制于高功耗与低算力利用率,而大模型又对算力提出前所未有的高要求:目前,大模型所需的大算力起码是1000TOPS及以上。
以 2020 年发布的 GPT-3 预训练语言模型为例,其采用的是2020年最先进的英伟达A100 GPU, 算力是624TOPS。2023年,随着模型预训练阶段模型迭代,又新增访问阶段井喷的需求,未来模型对于芯片算力的需求起码要破千。
再例如自动驾驶领域,根据财通证券研究所表明,自动驾驶所需单个芯片的算力未来起码要1000+TOPS:2021年4月, 英伟达就已经发布了算力为1000TOPS的DRIVE Atlan芯片;到了今年,英伟达直接推出芯片Thor,达到2000TOPS。
由此,业界亟需新架构、新工艺、新材料、新封装,突破算力天花板。除此之外,日渐紧张的地缘关系,无疑又给高度依赖先进制程工艺的AI大算力芯片厂商们提出新的挑战。
在这些大背景下,从2017年到2021年间集中成立的一批初创公司,选择跳脱传统冯诺依曼架构,布局存算一体等新兴技术,中国AI芯片3.0时代,正式拉开帷幕。
目前存算一体,正在上升期:
学界,ISSCC上存算/近存算相关的文章数量迅速增加:从20年的6篇上涨到23年的19篇;其中数字存内计算,从21年被首次提出后,22年迅速增加到4篇。
产界,巨头纷纷布局存算一体,国内陆陆续续也有近十几家初创公司押注该架构:
在特斯拉2023 Investor Day预告片末尾,特斯拉的dojo超算中心和存算一体芯片相继亮相;在更早之前,三星、阿里达摩院包括AMD也早早布局并推出相关产品:阿里达摩院表示,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍;三星表示,与仅配备HBM的GPU加速器相比,配备HBM-PIM的GPU加速器一年的能耗降低了约2100GWh。
目前,国内的亿铸科技、知存科技、苹芯科技、九天睿芯等十余家初创公司采用存算一体架构投注于AI算力,其中亿铸科技、千芯科技偏向数据中心等大算力场景。
现阶段,业内人士表示,存算一体将有望成为继CPU、GPU架构之后的第三种算力架构。
该提法的底气在于,存算一体理论上拥有高能效比优势,又能绕过先进制程封锁,兼顾更强通用性与更高性价比,算力发展空间巨大。
在此基础上,新型存储器能够助力存算一体更好地实现以上优势。目前可用于存算一体的成熟存储器有NOR FLASH、SRAM、DRAM、RRAM、MRAM等。相比之下,RRAM具备低功耗、高计算精度、高能效比和制造兼容CMOS工艺等优势:
目前,新型存储器RRAM技术已然落地:2022上半年,国内创业公司昕原半导体宣布,大陆首条RRAM 12寸中试生产线正式完成装机验收,并在工控领域达成量产商用。据昕原半导体CTO仇圣博士介绍,昕原RRAM产品的良率已经超过93%。
随着新型存储器件走向量产,存算一体AI芯片已经挺进AI大算力芯片落地竞赛。
而无论是传统计算芯片,还是存算一体芯片,在实际加速AI计算时往往还需处理大量的逻辑计算、视频编解码等非AI加速计算领域的计算任务。随着多模态成为大模型时代的大势所趋,AI芯片未来需处理文本、语音、图像、视频等多类数据。
对此,初创公司亿铸科技首个提出存算一体超异构AI大算力技术路径。亿铸的畅想是,若能把新型忆阻器技术(RRAM)、存算一体架构、芯粒技术(Chiplet)、3D封装等技术结合,将会实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性、从而抬高AI大算力芯片的发展天花板。
站在3.0时代门口,国产AI大算力芯片厂商自主意识爆发,以期为中国AI大算力芯片提供弯道超车的可能。
AI芯片市场的发展动力,大抵来源于以下几个因素。
中央与地方政府正为提供充足算力而奔波
2023年2月,中央政府发布多个相关报告与布局规划,强调东数西算中算力的调动,目前已落下一子:东数西算一体化服务平台。
地方政府层面,例如成都在2023年1月,发布“算力券”,即将政府算力资源与算力中介服务机构、科技型中小微企业和创客、科研机构、高校等共享,有效提高算力利用率;北京在2023年3月,发布加快落实算力的相关意见,加快计算中心、算力中心、工业互联网、物联网等基础设施建设。
基于国家与地方政府相关政策指引,AI厂商们纷纷建立起超算/智算中心,较于以往不同的是,今年算力的首个市场化运作模式诞生,智算中心算力的规模也实现质的飞跃:据国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》显示,目前全国有超过30个城市正在建设或提出建设智算中心。
AI芯片产业布局规划持续落地
可以看到,关于AI芯片政策已从“十三五”的规划阶段,来到“十四五”的落地阶段:提高AI芯片研发技术,推广AI应用。
同时,各地明确提出,要加强AI芯片产业布局。在这之中,浙江、广东、江苏等省份均提出了至2025年,人工智能芯片领域的具体发展方向。
存算一体正成为地方算力产业新机遇
存算一体,正成为深圳算力产业链创新发展的新机遇,并在积极落地之中。
2023年4月2日,在第二届中国产业链创新发展峰会新一代信息技术产业发展论坛上,北京大学深研院信息工程学院副院长杨玉超表示,深圳将立足于相对完善的产业链集群,从先进工艺与封装、创新电路与架构、EDA工具链、软件与算法生态这四个方面解决存算一体在产业化应用上的挑战。
今年4月,中国大模型正式爆发,未来,对于AI大算力芯片的需求只增不减。
现有的大模型,正向着英伟达A100大算力芯片狮子大开口:
故例如商汤等AI厂商,正把眼光放置在国产AI大算力芯片上:2023年4月10日商汤披露,目前商汤所用的国产化AI芯片占比达到总体的10%。这无疑,将加速国内AI芯片厂商的成长。
英伟达表示,未来将从GPU架构出发,走向“GPU+DPU的超异构”:推出NVLink-C2C 、支持UCLe+芯粒+3D封装;推出Thor“超异构”芯片2000T;
AMD表示,未来硬件创新突破更难,将走向“系统级创新”,即从整体设计的上下游多个环节协同设计来完成性能的提升。
千亿美元的AI芯片市场,2023火得滚烫
整体人工智能产业链,基本分为基础层、技术层和应用层三个层面:
基础层包括AI芯片、智能传感器、云计算等;技术层包括机器学习、计算机视觉、自然语言处理等;应用层包括机器人、无人机、智慧医疗、智慧交通、智慧金融、智能家居、智慧教育、智慧安防等。
基础层作为人工智能行业发展的基础,为人工智能提供数据和算力支撑,其中,AI芯片是人工智能算力的基矗
在AI产业尚未成熟之时,基础层企业当前价值量最大,中国人工智能产业链中,基础层企业比例达到83%,技术层企业比例为5%,应用层企业比例为12%。
基础层决定大楼是否稳固,而下游的应用层面决定大楼高度。在应用层,智能机器人、无人机等智慧终端潜力无限,智慧城市、智慧医疗等领域,更是有不少金子能挖。目前,我国智能机器人市场规模持续快速增长。
数据显示,2017-2021年我国智能机器人市场规模从448亿元增长至994亿元,期内年均复合增长率达22.05%,预计2023年其市场规模将达1300亿元。
据中国信通院数据统计,中国智慧城市市场规模近几年均保持30%以上增长,2021年市场规模达21.1万亿元,预计2023年其市场规模将达28.6万亿元。
千亿美元市场,AI芯片魅力无限
在全球数字化、智能化的浪潮下,技术层的技术正不断迭代:自动驾驶、影像辨识、运算等技术正在各领域深化应用;与此同时,应用层的物联网设备正不断丰富:工业机器人、AGV/AMR、智能型手机、智能音箱、智能摄影机等。
这无疑,会推动基础层的AI芯片与技术市场迅速成长。根据灼识咨询数据,2022年全球AI芯片市场规模达到960亿美元,预计2027年达到3089亿美元,2022年至2027年的复合年增长率为23%:
国内的AI芯片市场,更为火热:根据灼识咨询数据,2022年中国AI市场规模达到319亿美元,预计于2027年将达到1150亿美元,2022年至2027年的复合年增长率为29.2%。
2021,AI芯片赛道迎来风口
随着下游安防、汽车等市场需求量增大,再加上2019年以来,美国持续制裁国内厂商的动作,2021年,国内AI芯片赛道迎来风口。在这一年里,资本们竞相挑选属于中国AI芯片市场的“潜力狗”,以期掌握未来芯片市场的话语权。尽管2022年投资热度有所回落,但总体金额仍超百亿元。
(2016-2023年中国人工智能芯片行业融资整体情况 图源:前瞻经济学人APP)
C轮后的融资较少,AI芯片市场仍处于萌芽期
通过分析投资轮次发现,AI芯片市场仍处于萌芽期:目前人工智能芯片行业的融资轮次仍处于早期阶段,C轮后的融资数量较少。
(2016-2023年中国人工智能芯片行业投融资轮次情况 图源:前瞻经济学人APP)
存算一体成为香饽饽
细分赛道来看,GPU是价值量最高的赛道,摩尔线程等GPU玩家融资超10亿,荣获“MVP”;
而存算一体赛道融资公司数量最多,亿铸科技、知存科技等七家存算一体玩家,备受资本青睐。值得注意的是,存算一体赛道下的四家初创公司亿铸科技、知存科技、苹芯科技、后摩智能,已连续两年获得融资。
国内AI大算力赛道,玩家几何?
目前,寒武纪、平头哥等1.0时代玩家,现已成为优质AI算力芯片上市公司;2.0时代涌现的非上市AI算力芯片公司如壁仞科技、登临科技、天数智芯等在产品端持续发力;3.0时代,千芯科技、亿铸科技等初创公司正在存算一体这一架构上寻求突破。
经睿洞察整理发现,目前,多数AI芯片公司布局边缘侧、中心侧偏小算力场景,例如智慧安防、智慧城市、智慧医疗等应用场景;壁仞科技、平头哥、亿铸科技能够覆盖边缘侧、中心侧偏大算力场景;在新一批初创企业中,亿铸科技做出大胆的尝试,试图用存算一体架构去做大算力场景。
故,我们按照架构以及应用场景分类,呈现出以下AI算力芯片中游厂商全景图:
ChatGPT火爆来袭,引发AI产业巨浪,国产AI芯片正迎来3.0时代。在大模型催生的3.0时代,亟需AI大算力芯片提供充足算力,让日益沉重的大模型快速滚动起来。
大模型盛行,芯片厂商如何解决大算力难题?
算力,即国力
伴随“元宇宙”时代开启,GPT-4等大模型来势汹汹,数据流量将迎来爆发增长。据IDC预测数据,预估未来五年,全球算力规模将以超过50%的速度增长,到2025年整体规模将达到3300EFlops。而2025年全球物联网设备数将超过400亿台,产生数据量接近80ZB,且超过一半的数据需要依赖终端或者边缘的计算能力进行处理。
(全球算力需求未来增长情况 图源:中国银河证券研究院)
(全球算力增长速度明显落后于数据量增长 图源:中国银河证券研究院)
数据量暴增,各国急需算力维系数据的正常运转,各国之间的算力之争,正式打响。而事实上远不止算力之争这么简单,这背后,是各国国力的角逐。
2022年3月,由IDC、浪潮信息、清华大学全球产业研究院联合编制的《2021-2022全球计算力指数评估报告》,揭示了现如今“算力与国力”的基本关系:
全球各国算力规模与经济发展水平显著正相关,算力规模越大,经济发展水平越高。计算力指数平均每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰;美国和中国的计算力指数分别为77分和70分,明显领先其他国家的计算力指数。
场景众多,不同的算力场景,对芯片的要求不同
小至耳机、手机、PC,大到汽车、互联网、人工智能(AI)、数据中心、超级计算机、航天火箭等,“算力”都在其中发挥着基础核心作用。而不同的算力场景,对芯片的要求不同:
可以看到,数据中心由于其算法多样、迭代速度更快等特性,对芯片的要求尤其高:既要其高算力、又要其低功耗、低成本、高可靠性,还要其具备更高的通用性。
数据中心建设,迫在眉睫
在众多应用场景之中,数据中心尤为重要。作为AI基础设施,数据中心承载着多个中心侧与边缘侧算力的应用:
1、国家数据中心集群支撑工业互联网、金融证券、灾害预警、远程医疗、视频通话、人工智能推理。
2、城市内的数据中心作为算力“边缘”端,服务金融市场高频交易、VR/AR、超高清视频、车联网、联网无人机、智慧电力、智能工厂、智能安防等。
现如今,算力、甚至是国力之争,已然拉开序幕。
美国对中国数据中心、智算中心、超算中心的制裁自2021年就已开始:2021年4月,美国商务部对中国国家超级计算济南中心、深圳中心、无锡中心、郑州中心等中国超算实体列入“实体清单”。
基于下游市场的需求增长,地缘政治等因素,我国数据中心也快速提上日程:2021年5月,国家提出“东数西算”工程,明确围绕8个国家算力枢纽,推进国家数据中心集群以及城市内部数据中心建设。
现如今,中国数据中心建设较于美国仍有一定差距:
《2021-2022全球计算力指数评估报告》指出,目前世界上大约有600个超大规模的数据中心,每个都拥有超过5000台服务器,其中约39%在美国,是中国的4倍,而中国、日本、英国、德国和澳大利亚的服务器数量总和约占总数的30%。
截至2021年底,我国在用数据中心机架总规模达 520 万标准机架,在用数据中心服务器规模1900万台,算力总规模超过140EFLOPS。
在算力即国力的大背景下,大模型的催化下,低成本、低功耗的大算力一定会成为刚需。中国,亟需能够承载算力的自主可控的数据中心,而数据中心的算力,依赖着芯片的国产替代进度。
数据中心场景下,国产主流AI芯片,仍有差距
在数据中心这一基础设施中,服务器占据69%。现如今,在数据中心加速服务器市场,GPGPU凭借着更高性能、更高通用性占主导地位:
根据IDC数据,2021年,GPU/GPGPU服务器以91.9%的份额占我国加速服务器市场的主导地位;而前面我们提到过的ASIC、FPGA等非GPU加速服务器仅占比8.1%。
而现阶段,在云端数据中心场景下,国产GPGPU芯片较于国际顶尖水平,仍有差距。
在进行对比之前,我们需要明确的是,在云端(服务器端),对于训练芯片、推理芯片的要求不全然相同:
训练芯片需通过海量数据训练出复杂的神经网络模型,使其适应特定的功能,相应地,对性能和精度有较高的要求,并需具备一定的通用性;
推理芯片则是利用神经网络模型进行推理预测,对峰值计算性能要求较低,则更加注重单位能耗算力、时延、成本等综合指标。
AI训练芯片,国产仍有差距
目前,壁仞科技、平头哥、昆仑芯、沐曦、天数智芯等玩家对于云端数据中心皆有布局,其中,昆仑芯、平头哥等大多厂商推出推理芯片;寒武纪、沐曦、天数智芯则推出训推一体芯片。
近年来,国内厂商训练芯片产品硬件性能不断取得突破,但与市场主流英伟达A100产品仍存在一定差距:
以燧原云邃T20产品为例,其32位单精度浮点性能达32TFLOPS,高于A100的19.5TFLOPS,且在功耗上更具优势,但内存宽带不足A100的1/3,在应对机器学习和深度学习的带宽需求上仍有差距。
同时据浙商证券分析,寒武纪去年年底推出的思元590系列可能在部分模型上由于其ASIC专用性表现出更优异的性能,但由于其通用性不足,仍需要后期适配和技术支持。对比之下,中国AI训练芯片仍与英伟达在性能、生态(兼容)有一定差距。
AI推理芯片,国产有望追平
目前,寒武纪、燧原、昆仑芯等国内厂商产品已具备与市场主流的Tesla T4 正面竞争能力:其能效比为1.71TOPS/W,与T4的1.86TOPS/W差距较校
算力优化路径
差距犹在,国产AI厂商亟需赶上国际速度。大家提升芯片性能的第一步,都是卷先进制程。
现阶段,先进制程芯片设计成本高昂:单位面积成本在14/16nm后陡增。
(先进制程芯片的单位面积成本增加 图源:天风证券)
1、根据奇异摩尔数据,随着制程从28nm制程演变到5nm,研发投入也从5130万美元剧增至5.42亿美元,2nm的开发费用接近20亿美元,先进制程已然成了全球巨头的烧钱竞赛。
2、根据EETOP公众号数据,在7nm节点,设计一款芯片的费用高达3亿美元。且伴随摩尔定律不断放缓,晶体管同时逼近物理极限、成本极限。
由此,芯片上游企业也在疯狂涨价:供货商台积电的先进制程晶圆价格每年都在涨,越涨越离谱。
3、先前还是分制程涨价:2021年,台积电在8月25日中午通知客户全面涨价,即日起7nm及5nm先进制程将涨价7%至9%,其余的成熟制程涨价约20%;
4、而在2023年初,台积电全线大幅度涨价:根据《电子时报》报道,台积电12英寸5nm晶圆价格高达1.6万美元/片,较上一代7nm晶圆涨价60%。
成本上涨将成为常态,更令人遗憾的是,在国内厂商已经把制程卷到7nm的情况下,性能也并没有赶超英伟达。
若是卷到5nm以达到更高的性能,芯片厂商得不偿失:
首先是成本难以负担,英伟达在GPGPU的护城河,是靠着钱砸出来的。据英伟达黄仁勋表示,光是A100芯片的研发成本,就是20-30亿美元(百亿元级别)以及4年时光。短期之内,国内初创企业没有如此大的体量,也付不起时间成本。
目前,高昂的研发成本已让寒武纪等厂商,仍未盈利。
其次是钱花了,没效果:性能并非保持“正增长”。逻辑芯片依然沿着摩尔定律向前演进,存储芯片继续缩减尺寸已不再具备成本和性能方面的优势,模拟芯片制程的缩小反而可能导致模拟电路性能的降低。
同时,长期来看,7nm芯片比5nm成本效益更高:
美国乔治城大学发布了一份AI芯片研究报告,其中对采用不同工艺节点的AI芯片进行经济效益分析。该报告通过量化模型揭示出,相比5nm工艺节点,7nm工艺芯片的成本收益更优。
研究人员从该成本分析模型,得出两个结论:
1、在正常运营两年内,先进工艺(7/5nm)芯片的能耗成本就超过了其生产成本,采用旧工艺的芯片(10nm及以上)能耗成本增长更快。若综合考虑生产成本和运营成本,先进工艺芯片的成本效益是旧工艺芯片的33倍。
2、对比7nm和5nm芯片,当正常运营使用8.8年时,二者的成本相当。这意味着,如果在8.8年以内更换芯片,7nm更划算。鉴于数据中心AI训练和推理所用的AI加速器大都是3年更换一次,单从成本效益来看7nm芯片比5nm更划算。
除此之外,还有着地缘政治影响,国内的先进制程研发屡屡受阻。芯片苦于先进制程久矣,而提升芯片算力,绝非只是提升单芯片的性能,而是要考虑芯片的宏观总算力。
宏观总算力 = 性能*数量(规模)*利用率,而目前在CPU、GPU、AI等大算力芯片身上,我们能看到的是,很多方案不能兼顾这三大因素:
1、有的算力芯片,可以做到性能狂飙,但较少考虑芯片的通用性易用性,导致芯片销量不高、落地规模校例如通过FPGA定制,便是规模太小,成本和功耗太高。
2、有的算力提升方案,重在规模投入,但解决不了未来算力需求数量级提升的根本。
3、有的解决方案,通过各种资源池化和跨不同的边界算力共享,来提升算力利用率,但改变不了目前算力芯片性能瓶颈的本质。
而想要达到大算力,需要兼顾性能、规模、利用率三大影响因子的、具备大局观的方案。
算力解决方案,蓄势待发
以AI云端推理卡为例,我们能看到的是,2018-2023年,算力由于工艺制程“卷不动”等种种原因,成本、功耗、算力难以兼顾。
但国力之争已然打响,ChatGPT已然到来,市场亟需兼顾成本、功耗、算力的方案。
目前国际大厂、国内主流厂商、初创企业都在谋求计算架构创新,试图找出兼顾性能、规模、利用率的方案,突破算力天花板。
对于架构创新,业内给出不少技术及方案:量子计算(量子芯片)、光子芯片、存算一体、芯粒(Chiplet)、3D封装、HBM
在这之中,现在能够兼容CMOS工艺又能尽快量产的,有HBM、芯粒、3D封装、存算一体。而存算一体、芯粒(Chiplet)是目前业内普遍认为,能够突破 AI 算力困境,进行架构创新的两条清晰路线。
用存算一体消除数据隔阂
从传统冯诺依曼架构到存算一体架构,通俗来讲,就是消除数据与数据的隔阂,让其更高效地工作。
在传统冯诺伊曼架构之下,芯片的存储、计算区域是分离的。计算时,数据需要在两个区域之间来回搬运,而随着神经网络模型层数、规模以及数据处理量的不断增长,数据已经面临“跑不过来”的境况,成为高效能计算性能和功耗的瓶颈,也就是业内俗称的“存储墙”。
(存储墙限制具体表现 图源:浙商证券)
存储墙相应地也带来了能耗墙、编译墙(生态墙)的问题。例如编译墙问题,是由于大量的数据搬运容易发生拥塞,编译器无法在静态可预测的情况下对算子、函数、程序或者网络做整体的优化,只能手动、一个个或者一层层对程序进行优化,耗费了大量时间。
这“三堵墙”会导致算力无谓浪费:据统计,在大算力的AI应用中,数据搬运操作消耗90%的时间和功耗,数据搬运的功耗是运算的650倍。
而存算一体能够将存储和计算融合,彻底消除了访存延迟,并极大降低了功耗。基于此,浙商证券报告指出,存算一体的优势包括但不限于:具有更大算力(1000TOPS以上)、具有更高能效(超过10-100TOPS/W)、降本增效(可超过一个数量级)
如下图所示,相较于GPGPU,存算一体芯片能够实现更低能耗、更高能效比,在应用落地方面能够助力数据中心降本增效,赋能绿色算力。
基于此,若是处理一天的咨询量,存算一体芯片在初始投入上,是A100的13%-26%,在每日电费上,是A100的12%。
2.3.2.2 用Chiplet赋予芯片更多能力
除了打破数据之间的墙,芯片设计厂商试图赋予芯片更多的能力:把任务分发给不同架构的硬件计算单元(比如CPU、GPU、FPGA),让他们各司其职,同步工作,提高效率。
回顾计算机发展史,AI芯片处理器从单核多核,计算从串行并行,从同构并行到异构并行。
当摩尔定律还是行业的铁律,也就是第一阶段时,计算机编程几乎一直都是串行的。绝大多数的程序只存在一个进程或线程。
此时,性能依赖于硬件工艺。而2003年以后,因为工艺达到了瓶颈,光是靠硬件提升行不通了。随后,即便迎来了同构计算(叠加多个核,强行提升算力),但总体的天花板仍然存在。
异构并行计算的到来,开辟了新的技术变革:把任务分发给不同架构的硬件计算单元(比如说CPU、GPU、FPGA),让他们各司其职,同步工作,提高效率。
异构的好处,从软件的角度来讲,异构并行计算框架能够让软件开发者高效地开发异构并行的程序,充分使用计算平台资源。
从硬件角度来讲,一方面,多种不同类型的计算单元通过更多时钟频率和内核数量提高计算能力;另一方面,各种计算单元通过技术优化提高执行效率。
在这之中,Chiplet是关键技术。
在当前技术进展下,Chiplet方案能够实现芯片设计复杂度及设计成本降低。IC设计阶段将SoC按照不同功能模块分解为多个芯粒,部分芯粒实现模块化设计并在不同芯片中重复使用,能够实现设计难度降低,且有利于后续产品迭代,加速产品上市周期。
用HBM技术拓宽“数据通道”
由于半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线,这也就意味着,处理器与存储器的工艺、封装、需求大不相同。
这就导致,从1980年开始至今,二者之间的性能差距越来越大。数据显示,从1980年到2000年,处理器和存储器的速度失配以每年50%的速率增加。
(1980-2000年,处理器和存储器两者的速度失配以每年50%的速率增加 图源:电子工程专辑)
存储器数据访问速度跟不上处理器的数据处理速度,两者之间数据交换通路狭窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“内存墙”。
为了减小内存墙的影响,提升内存带宽一直是存储芯片关注的技术问题。黄仁勋曾表示计算性能扩展最大的弱点就是内存带宽。
HBM,便是该难题的解法。
高带宽存储器(High Bandwidth Memory),是一种硬件存储介质。基于其高吞吐高带宽的特性,受到工业界和学术界的关注。
HBM其中一个优势就是通过中介层缩短内存与处理器之间的距离,通过先进的3D封装方式把内存和计算单元封装在一起,提高数据搬运速度。
超异构,兼顾性能、规模、利用率的新兴方案
超异构计算,是能够把更多的异构计算整合重构,从而能让各类型处理器间充分地、灵活地进行数据交互而形成的计算。
简单来说,就是聚合DSA、GPU、CPU、CIM等多个类型引擎的优势,同时结合Chiplet、3D封装等新兴架构,实现性能的飞跃:
√ DSA负责相对确定的大计算量的工作;
√GPU负责应用层有一些性能敏感的并且有一定弹性的工作;
√CPU啥都能干,负责兜底;
√CIM就是存内计算,超异构和普通异构的主要区别就是加入了CIM,由此可以实现同等算力,更低能耗;同等能耗,更高算力。另外,CIM由于器件的优势,能负担比DSA更大的算力。
超异构计算能够很好解决性能、规模、利用率问题。
在性能层面,由于存算一体的加入,能够实现同等算力,更低能耗;同等能耗,更高算力;
在规模层面,由于超异构基于一个计算平台能够聚合多个类型引擎,能够兼顾灵活性与通用性,也就没有因为不够通用导致规模过小;又由于该方案较为全能,能够应付各类型的任务,利用率也能够得到提升。
超异构未来研究方向
而现实是,仅仅是异构计算,便面临着编程很难的困境,NVIDIA经过数年的努力,才让CUDA的编程对开发者足够友好,形成主流生态。
超异构就更是难上加难:超异构的难,不仅仅体现在编程上,也体现在处理引擎的设计和实现上,还体现在整个系统的软硬件能力整合上。
对于更好地驾驭超异构,软硬件融合给出了方向:
1、兼顾性能和灵活性。从系统的角度,系统的任务从CPU往硬件加速下沉,如何选择合适的处理引擎,达到最优性能的同时,有最优的灵活性。并且不仅仅是平衡,更是兼顾。
2、编程及易用性。系统逐渐从硬件定义软件,转向了软件定义硬件。如何利用这些特征,如何利用已有软件资源,以及如何融入云服务。
3、产品。用户的需求,除了需求本身之外,还需要考虑不同用户需求的差异性,和单个用户需求的长期迭代。该如何提供给用户更好的产品,满足不同用户短期和长期的需求。授人以鱼不如授人以渔,该如何提供用户没有特定的具体功能的、性能极致的、完全可编程的硬件平台。
算力即国力,数据中心是各国开展国力之争的“根据地”。数据中心亟需大算力芯片,满足各大中心侧、边缘侧应用场景的需求。
然而在数据中心应用场景下,国内现有云端AI训练、推理芯片仍与尖子生英伟达A100芯片有较大差距。同时,现阶段工艺制程已达到物理极限、成本极限,寻求更高效的计算架构,才是上上之眩
现如今,存算一体,Chiplet,3D封装等技术现已成熟,超异构等解决方案可实施性较高。传统架构上,各国差距明显,而在新型技术上,各国难分伯仲。
算力之争的格局,正悄然发生变化。
国内AI芯片,百舸争流,胜局未定
传统架构下,英伟达一家独大
按照市场格局来分,在AI芯片领域,目前有三类玩家。
一种是以 Nvidia、AMD 为代表的老牌芯片巨头,这些企业积累了丰富的经验,产品性能突出。根据上文可知,在云端场景下,无论是推理芯片还是训练芯片,国内厂商皆与其有差距。
另一种是以 Google、百度、华为为代表的云计算巨头,这些企业纷纷布局通用大模型,并自己开发了 AI 芯片、深度学习平台等支持大模型发展。如 Google 的 TensorFlow 以及 TPU,华为的鲲鹏、腾,阿里平头哥的含光800。
最后是AI 芯片独角兽,如寒武纪、壁仞科技、地平线等,凭借雄厚的技术实力、资金基储研发团队,闯进AI芯片赛道。
目前,英伟达占据80%以上中国加速卡市场份额,国产 AI 芯片亟待发展:根据 IDC 的数据显示,2021 年中国加速卡的出货数量已经超过 80 万片,其中 Nvidia 占据了超过 80%的市场份额。剩下的份额被 AMD、百度、寒武纪、燧原科技、新华三、华为等品牌占据。
技术路径背后,暗藏玄机
按照计算架构分类,目前国内大抵分为三大阵营:ASIC、GPGPU、存算一体玩家。
通过梳理各厂商使用架构、应用场景、资源禀赋,可以发现以下几条线索:
大厂与自动驾驶专业芯片厂商们,偏爱ASIC。
国内大厂华为海思、百度、平头哥皆选择ASIC作为自己的芯片架构:
1、华为选择部署端到端的完整生态,例如使用腾910必须搭配华为的大模型支持框架MindSpore、盘古大模型。
2、阿里在该方面的定位是系统集成商和服务商,运用自身芯片产品搭建加速平台中,对外输出服务。
3、百度昆仑芯主要在自身智算集群和服务器上以及国内企业、研究所、政府中使用。
ASIC尽管集成度非常高,性能可以充分发挥、功耗可以得到很好的控制,但缺点也很明显:应用场景局限、依赖自建生态、客户迁移难度大、学习曲线较长等问题。
而大厂皆拥有多个特定场景,ASIC“应用场景局限、客户迁移难度大”的弊端在大厂场景下便不复存在,同时选择ASIC在量产制造供应链上的难度显著低于GPU。
专注于自动驾驶场景的AI芯片厂商例如地平线、黑芝麻,由于手握多家订单,同样避免了ASIC的弊端:截止2023年4月23日,地平线征程芯片出货量突破了300万片,与超过20家车企,共计120多款车型达成量产定点合作。
2017年后,AI芯片独角兽们,加入GPGPU阵营。
由于ASIC只能在特定场景、固有算法之下发挥极致性能,厂商们要么需要自身有特定场景(例如华为等大厂),要么绑定大客户(例如耐能科技)。而更为通用的GPGPU展现出该有的性能之后,成为国产AI芯片公司的首眩
可以看到,选择GPGPU的登临科技、天数智芯、燧原科技已经把训练与推理都全面覆盖,而ASIC大多芯片例如平头哥,只能专注于推理或是训练场景。
2019年前后,新一批AI芯片独角兽们,押注存算一体
AI算力芯片发展至2019年前后,国内AI芯片厂商们发现,在传统架构下,CPU、GPU、FPGA已被国外垄断,且高度依赖先进工艺制程,缺乏一定先进制程技术储备的国内AI厂商,纷纷寻找新的解法存算一体芯片。目前,存算一体格局未定,或将成为国内厂商破局关键。存算一体主流的划分方法是依照计算单元与存储单元的距离,将其大致分为近存计算(PNM)、存内处理(PIM)、存内计算(CIM)。
特斯拉、阿里达摩院、三星等大厂所选择的,是近存计算。
据Dojo项目负责人Ganesh Venkataramanan介绍,特斯拉Dojo(AI训练计算机)所用的D1芯片相比于业内其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空间节省5倍。具体来说,在D1训练模块方面,每个D1训练模块由5x5的D1芯片阵列排布而成,以二维Mesh结构互连。片上跨内核SRAM达到惊人的11GB,由于用上近存计算架构,能效比为0.6TFLOPS/W@BF16/CFP8。业内人士表示,对于CPU架构来说,这一能效比非常不错。
阿里达摩院在2021年发布采用混合键合(Hybrid Bonding)的3D堆叠技术将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。据阿里达摩院测算,在实际推荐系统应用中,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍。
三星基于存内处理架构,发布存储器产品HBM-PIM(严格意义上是PNM)。三星表示该架构实现了更高性能与更低能耗:与其他没有HBM-PIM芯片的GPU加速器相比,HBM-PIM芯片将AMD GPU加速卡的性能提高了一倍,能耗平均降低了约50%。与仅配备HBM的GPU加速器相比,配备HBM-PIM的GPU加速器一年的能耗降低了约2100GWh。
国内知存科技选择的是,存内处理:2022年3月,知存科技量产的基于PIM的SoC芯片WTM2101正式投入市常距今未满1年,WTM2101已成功在端侧实现商用,提供语音、视频等AI处理方案并帮助产品实现10倍以上的能效提升。
而存内计算,便是国内大部分初创公司所说的存算一体:
亿铸科技,基于CIM框架、RRAM存储介质的研发“全数字存算一体”大算力芯片,通过减少数据搬运提高运算能效比,同时利用数字存算一体方法保证运算精度,适用于云端AI推理和边缘计算。
智芯科微,于2022年底推出业界首款基于SRAM CIM的边缘侧AI增强图像处理器。
在存算一体阵营之中,大厂与初创公司同样因为技术路径,走了不同的路。
大公司与初创公司“自觉”分为两个阵营:特斯拉、三星、阿里巴巴等拥有丰富生态的大厂以及英特尔,IBM等传统的芯片大厂,几乎都在布局PNM;而知存科技、亿铸科技、智芯科等初创公司,在押注PIM、CIM等“存”与“算”更亲密的存算一体技术路线。
综合生态大厂思量的是,如何快速攻破算力和功耗的瓶颈,让自己丰富的应用场景快速落地;芯片大厂们针对客户所提出的高效算力和低功耗需求,开发出符合客户需求的技术。
也就是说,大厂对存算一体架构提出的需求是“实用、落地快”,近存计算作为最接近工程落地的技术,成为大厂们的首眩
而中国初创公司们,由于成立时间较短、技术储备薄弱:缺乏先进2.5D和3D封装产能和技术,为打破美国的科技垄断,中国初创企业聚焦的是无需考虑先进制程技术的CIM。
云端场景下,玩家由浅入深
不同的业务场景均已呈现出各自的优势,在商业模式上国内外都在探索阶段。而不论是国内外公司,先云端推理是大家一致的方向。
业界普遍认为,训练芯片的研发难度和商业化落地更难,训练芯片可以做推理,但推理芯片不能做训练。
原因是,在AI训练的过程中,神经网络模型并没有固定,所以对芯片的通用性有很高的需求。而推理则更简单,增速更快,故而训练芯片对于芯片公司的设计能力考验更高。
从全球AI芯片市场来看,先推理后训练是主流路径,英特尔收购的AI芯片公司Habana、国内诸多AI初创公司皆是如此。
如此选择,也是下游市场的催化作用:
随着近年来 AI 模型训练逐渐成熟,AI 应用逐渐落地,云端推理的市场已经逐渐超过了训练的市场:
根据IDC与浪潮联合发布的《2020-2021中国人工智能计算力发展评估报告》显示,2021 年中国市场 AI 服务器的推理负载超过训练负载,并且随着 AI 进入应用期,数据中心推理算力需求的复合增长率是训练侧的2倍以上,预计到2026年用于推理的加速器占比将超过 60%。
AI芯片“新星”存算一体门槛奇高
2019年后,新增的AI芯片厂商,多数在布局存算一体:据睿洞察不完全统计,在2019-2021年新增的AI芯片厂商有20家,在这之中,有10家选择存算一体路线。
这无一不说明着,存算一体将成为继GPGPU、ASIC等架构后的,一颗冉冉升起的新星。而这颗新星,并不是谁都可以摘。
在学界、产界、资本一致看好存算一体的境况下,强劲的技术实力、扎实的人才储备以及对迁移成本接受度的精准把控,是初创公司在业内保持竞争力的关键,也是挡在新玩家面前的三大门槛。
存算一体,打破了三堵墙,能够实现低功耗、高算力、高能效比,但想要实现如此性能,挑战颇多:
首先是存算一体涉及到芯片制造的全环节:从最底层的器件,到电路设计,架构设计,工具链,再到软件层的研发;
其次是,在每一层做相应改变的同时,还要考虑各层级之间的适配度。
我们一层一层来看,一颗存算一体芯片被造出来,有怎样的技术难题。
首先,在器件选择上,厂商就“如履薄冰”:存储器设计决定芯片的良率,一旦方向错误将可能导致芯片无法量产。
其次是电路设计层面。电路层面有了器件之后,需要用其做存储阵列的电路设计。而目前在电路设计上,存内计算没有EDA工具指导,需要靠手动完成,无疑又大大增加了操作难度。
紧接着,架构层面有电路之后,需要做架构层的设计。每一个电路是一个基本的计算模块,整个架构由不同模块组成,存算一体模块的设计决定了芯片的能效比。模拟电路会受到噪声干扰,芯片受到噪声影响后运转起来会遇到很多问题。
这种情况下,需要架构师了解模拟存内计算的工艺特点,针对这些特点去设计架构,同时也要考虑到架构与软件开发的适配度。
软件层面架构设计完成后,需要开发相应的工具链。
而由于存算一体的原始模型与传统架构下的模型不同,编译器要适配完全不同的存算一体架构,确保所有计算单元能够映射到硬件上,并且顺利运行。
一条完整的技术链条下来,考验着器件、电路设计、架构设计、工具链、软件层开发各个环节的能力,与协调各个环节的适配能力,是耗时耗力耗钱的持久战。
根据以上环节操作流程可以看到,存算一体芯片亟需经验丰富的电路设计师、芯片架构师。
除此之外,鉴于存算一体的特殊性,能够做成存算一体的公司在人员储备上需要有以下两点特征:
1、带头人需有足够魄力。在器件选择(RRAM、SRAM等)、计算模式(传统冯诺依曼、存算一体等)的选择上要有清晰的思路。
这是因为,存算一体作为一项颠覆、创新技术,无人引领,试错成本极高。能够实现商业化的企业,创始人往往具备丰富的产业界、大厂经验和学术背景,能够带领团队快速完成产品迭代。
2、在核心团队中,需要在技术的各个层级中配备经验丰富的人才。例如架构师,其是团队的核心。架构师需要对底层硬件,软件工具有深厚的理解和认知,能够把构想中的存算架构通过技术实现出来,最终达成产品落地;
3、此外,据量子位报告显示,国内缺乏电路设计的高端人才,尤其在混合电路领域。存内计算涉及大量的模拟电路设计,与强调团队协作的数字电路设计相比,模拟电路设计需要对于工艺、设计、版图、模型pdk以及封装都极度熟悉的个人设计师。
落地,是第一生产力。在交付时,客户考量的并不仅仅是存算一体技术,而是相较于以往产品而言,存算一体整体SoC的能效比、面效比和易用性等性能指标是否有足够的提升,更重要的是,迁移成本是否在承受范围内。
如果选择新的芯片提升算法表现力需要重新学习一套编程体系,在模型迁移上所花的人工成本高出购买一个新GPU的成本,那么客户大概率不会选择使用新的芯片。
因此,存算一体在落地过程中是否能将迁移成本降到最低,是客户在选择产品时的关键因素。
目前来看,英伟达凭借着更为通用的GPGPU霸占了中国AI加速卡的市常
然而,存算一体芯片凭借着低功耗但高能效比的特性,正成为芯片赛道,冉冉升起的一颗新星。
而存算一体市场,风云未定,仍处于“小荷才露尖尖角”阶段。但我们不可否认的是,存算一体玩家已然构筑了三大高墙,非技术实力雄厚,人才储备扎实者,勿进。
行业发展趋势
存算一体,算力的下一级
随着人工智能等大数据应用的兴起,存算一体技术得到国内外学界与产界的广泛研究与应用。在2017年微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、加州大学圣塔芭芭拉分校等都推出他们的存算一体系统原型。
自此,ISSCC上存算/近存算相关的文章数量迅速增加:从20年的6篇上涨到23年的19篇;其中数字存内计算,从21年被首次提出后,22年迅速增加到4篇,23年有6篇。
(ISSCC2023存算一体相关文章 图源:ISSCC2023)
系统级创新,崭露头角
系统级创新正频频现身半导体TOP级会议,展露着打破算力天花板的潜力。
在 AMD 的总裁兼CEO Lisa Su(苏姿丰)带来的主旨演讲“Innovation for the next decade of compute efficiency“(下一个十年计算效率的创新)中,她提到了AI应用的突飞猛进,以及它给芯片带来的需求。
Lisa Su表示,根据目前计算效率每两年提升2.2倍的规律,预计到2035年,如果想要算力达到十万亿亿级,则需要的功率可达500MW,相当于半个核电站能产生的功率,“这是极为离谱、不切合实际的”。
而为了实现这样的效率提升,系统级创新是最关键的思路之一。
(算力与功耗关系 图源:ISSCC2023大会)
在另一个由欧洲最著名三个的半导体研究机构IMEC/CEA Leti/Fraunhofer带来的主旨演讲中,系统级创新也是其核心关键词。
该演讲中提到,随着半导体工艺逐渐接近物理极限,新的应用对于芯片的需求也必须要从系统级考虑才能满足,并且提到了下一代智能汽车和AI作为两个尤其需要芯片从系统级创新才能支持其新需求的核心应用。
“从头到脚”打破算力天花板
系统级创新,是协同设计上中下游多个环节,实现性能的提升。还有一种说法是,系统工艺协同优化。
系统工艺协同优化为一种“由外向内”的发展模式,从产品需支持的工作负载及其软件开始,到系统架构,再到封装中必须包括的芯片类型,最后是半导体制程工艺。
(系统工艺协同优化 图源:ISSCC2023大会)
简单来说,就是把所有环节共同优化,由此尽可能地改进最终产品。
对此,Lisa Su给出了一个经典案例:在对模型算法层面使用创新数制(例如8位浮点数FP8)的同时,在电路层对算法层面进行优化支持,最终实现计算层面数量级的效率提升:相比传统的32位浮点数(FP32),进行系统级创新的FP8则可以将计算效率提升30倍之多。而如果仅仅是优化FP32计算单元的效率,无论如何也难以实现数量级的效率提升。
(特定域计算支持工作负载优化,从而提高性能和效率 图源:ISSCC2023大会)
这便是系统级创新成为关键路径的原因所在:如果电路设计仅仅停留在电路这一层只是考虑如何进一步优化FP32计算单元的效率,无论如何也难以实现数量级的效率提升。
对此,在未来发展机会模块的演讲中,Lisa Su给出了未来系统级封装架构的大致模样:包含异构计算丛集,特定加速单元,先进封装技术,高速片间UCIe互联,存算一体等内存技术。
(未来的系统级封装架构 图源:ISSCC2023大会)
百舸争流,创新者先
技术路径、方案已然明确,接下来就是拼魄力的阶段。
每一个新兴技术的研发厂商,在前期无疑要面临技术探索碰壁,下游厂商不认同等各个层面的问题。而在早期,谁先预判到未来的发展趋势,并用于迈出探索的脚步,铺下合理的资源去尝试,就会抢到先机。
芯片巨头NVIDIA在这方面做出了很好的榜样。
当数据中心浪潮还未铺天盖地袭来、人工智能训练还是小众领域之时,英伟达已经投入重金,研发通用计算GPU和统一编程软件CUDA,为英伟达谋一个好差事计算平台。
而在当时,让GPU可编程,是“无用且亏本”的:不知道其性能是否能够翻倍,但产品研发会翻倍。为此,没有客户愿意为此买单。但预判到单一功能图形处理器不是长远之计的英伟达毅然决定,在所有产品线上都应用CUDA。
在芯东西与英伟达中国区工程和解决方案高级总监赖俊杰博士的采访中,赖俊杰表示:“为了计算平台这一愿景,早期黄仁勋快速调动了英伟达上上下下非常多的资源。”
远见+重金投入,在2012年,英伟达拿到了创新者的奖励:2012年,深度学习算法的计算表现轰动学术圈,作为高算力且更为通用、易用的生产力工具,GPU+CUDA迅速风靡计算机科学界,成为人工智能开发的“标配”。
现如今,存算一体已显现出强大的性能,在人工智能神经网络、多模态的人工智能计算、类脑计算等大算力场景,有着卓越的表现。
国内厂商也在2019年前后纷纷布局存算一体,同时选择3D封装、chiplet等新兴技术,RRAM、SRAM等新兴存储器,突破算力天花板。
AI大算力芯片的战争,创新者为先。
结语:
ChatGPT火爆来袭,引发AI产业巨浪,国产AI芯片正迎来3.0时代;在3.0时代,更适配大模型的芯片架构存算一体将崭露头角,同时系统级创新将成为未来的发展趋势,抢先下注的厂商将先吃到ChatGPT带来的红利。