近日,芯片巨头AMD推出全新AI GPU MI300系列芯片,与英伟达在AI 算力市场展开竞争。
AMD首席执行官苏姿丰介绍称,MI300X提供的高带宽内存(HBM)密度是英伟达H100的2.4倍,HBM带宽是竞品的1.6倍。华尔街分析师也普遍认为,AMD的这款芯片将对目前掌握AI芯片市场逾八成份额的英伟达构成有力挑战,这款MI300X加速器,有望替代英伟达的同类产品。
然而,市场对本次新品的反响似乎并不热烈。截至隔夜收盘,AMD股价下跌超3.6%,被挑战的英伟达不跌反涨,股价单日大涨3.90%。
至于当日AMD股价下跌的原因,可能包括英伟达在AI发展方面更为成熟,而AMD公司的新品仍有待市场验证。此外,其客户更关心的是价格问题。作为参考,由于供需紧张,英伟达H100的价格已经达到4万美元/枚,而AMD没有披露MI300X的定价,难以与英伟达H100形成对比。
01
蹿红的英伟达
2022年ChatGPT横空出世,把AI 行业的发展推向了一个新的高潮,生成式 AI 需要基于海量的数据进行推理训练,高算力的 GPU 加速卡自然也成了市场的抢手货。乘着AI的东风,英伟达坐上了“算力霸主”的宝座。
据悉,微软用几亿美元,耗费上万张英伟达A100芯片打造超算平台,只为给ChatGPT和新版必应提供更好的算力。不仅如此,微软还在Azure的60多个数据中心部署了几十万张GPU,用于ChatGPT的推理。特斯拉CEO马斯克也购买了约1万个GPU,用于公司的两个数据中心之一。除此之外,像亚马逊、阿里、百度等众多科技公司都在竞相部署AI芯片。
供需的极度不平衡让英伟达的GPU一芯难求,开启涨价。据市场消息人士透露,英伟达的A100和H100 AI GPU订单还在不断增加,A800和H800的售价已上涨40%,新订单交期可能要延长到12月份。
在炙手可热的AI浪潮下,英伟达赚得盆满钵满。英伟达表示,其截至 7 月的本季度销售额预计将达 110 亿美元,较华尔街之前的估计高出 50%以上。不过,作为AI的基础设施,算力芯片环节的“一家独大”显然不是有利于行业长远发展的生态,市场迫切需要引入新的竞争者,AMD的出现或许有望“分担”AI市场的压力。
与此同时,中国本土AI应用和AI芯片初创公司也随着AI的热潮和风投的关注而遍地开花。那么,中国的AI芯片研究进展如何了?哪些公司可以脱颖而出?
02
国产AI芯片进展几何?
中国主要的AI芯片公司有寒武纪、华为腾、海光信息、沐曦科技、壁仞科技、燧原科技、天数智芯等,随着AI应用的普及和成效开始凸显,国产AI芯片正迎来全面爆发和增长,多家AI芯片独角兽也将慢慢浮出水面。
寒武纪
在云端产品线,寒武纪已经推出了四代芯片产品,分别为:思元100、思元270、思元290(车载)以及思元370系列,用以支撑在云计算和数据中心场景下复杂度和数据吞吐量高速增长的人工智能处理任务。此外,寒武纪还有一款在研产品思元590,尚未正式发布,并且最有看头的便是寒武纪的思元590。
该芯片采用MLUarch05全新架构,实测训练性能较在售旗舰产品思元290系列有大幅提升,有望成为国产先进AI算力芯片。据悉,思元590整体算力综合性能大约是A100的70%,其有望在部分场景替代英伟达A100。
不过,思元590的指令兼容性相对较差,后续可能影响部署。值得注意的是,其下一代产品的性能指标大约是A100的1.5倍,但同样面临软件生态影响,以及供应链问题。
华为腾
华为腾主要包括腾910和腾310两款处理器,采用自家的达芬奇架构。腾310主打面向边缘场景的低功耗AI处理器,腾910是一款面向云端和数据中心的高性能AI处理器,可以支持超大规模的AI训练任务,表现十分优秀。
据华为发布的信息,实际测试结果表明,在算力方面,腾910完全达到了设计规格,即:半精度 (FP16)算力达到256 Tera-FLOPS,整数精度 (INT8) 算力达到512 Tera-OPS,重要的是,达到规格算力所需功耗仅310W,明显低于设计规格的350W。
据悉,在实际应用过程中,腾910的处理速度比业界同类产品快80%以上。徐直军表示,腾910 总体技术表现超出预期,作为算力最强AI处理器,当之无愧。
不过腾910也有着很大的局限性。腾910依赖华为自身软件生态、需要华为深度优化及代码移植,通用性相对要差一些,比如腾不能做GPT-3,因为腾910不支持32位浮点,而目前大模型训练几乎都要使用32位的浮点。
沐曦科技
沐曦公司旗下主要有曦思和曦云两款AI芯片,其中曦云MXC系列是该公司研发的用于AI训练及通用计算的GPU芯片。
MXC500是沐曦对标A100/A800的算力芯片,FP32浮点性能可达15TFlops,作为对比的是A100显卡FP32 性能19.5 TFLOPS。除了性能接近之外,MXC500的完整软件栈(MXMACA)还兼容CUDA,预计年底规模出货。
此外,沐曦的团队背景经验十分丰富,其一些核心人员曾参与AMD的MI100、MI200产品开发,这都是AMD目前最主流的GPGPU产品。
海光信息
海光信息是一个潜力股,拿海光DCU(协处理器)系列深算一号和英伟达的A100、AMD的MI100来对比,其很多基本指标上都达到国际同类高端产品的水平,虽然在整体性能上依然有明显差距,但在国产替代的背景下其实已经相当优秀,发展潜力巨大。
不过,海光信息若要使用新一代GPGPU架构还需要AMD授权,存在迭代问题。
壁仞科技
壁仞的BR100 发布时,凭借其超高的参数与性能引起了强烈的轰动。
参数方面,BR100系列基于7nm制程工艺打造,拥有770亿个晶体管。由壁仞科技自主原创的芯片架构开发,采用Chiplet(芯粒)、2.5D CoWoS等先进的设计、制造与封装技术,可搭配64GB HBM 2E显存,超300MB片上缓存,支持PCIe 5.0、CXL互联协议等。
性能是BR100最具亮点的地方,拥有1024 TOPS INT8,512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32,可实现2.3TB/s的外部I/O带宽,支持64路编码、512路解码等,号称在FP32(单精度浮点)、INT8(整数,常用于人工智能推理)等维度,均超越了国际厂商最新旗舰。
BR100 系列通用 GPU 芯片支持云端训练和推理,目前已经到了收尾阶段,预计将在今年流片。壁仞科技的第二款芯片已经开始启动架构设计,之后壁仞科技还将逐步推出面向智算中心、云游戏、边缘计算的GPU芯片。
不过,BR100还未有产品出来,其参数至今停留在实验室阶段,届时商用实测性能难以衡量。
阿里平头哥
阿里的AI芯片,与GPU架构有着很大的不同,因为他们做的完全是基于AI算法优化的架构。
阿里曾表示,含光800是当时全球最强的AI芯片,性能和能效比均为第一,1颗含光800的算力相当于10颗GPU。
含光800芯片在业界标准的ResNet-50测试中,推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
在业界,平头哥发布的这款芯片也很被看好。
燧原科技
燧原科技,是少有的云端AI芯片创业公司,其完成对AI 训练芯片的二次迭代,仅用了三年时间,主要产品是“邃思”。
据介绍,燧原科技发布的邃思2.0的尺寸达到57.5毫米×57.5毫米(面积为3306mm2),达到了日月光2.5D封装的极限,与上代产品一样采用格罗方德12nm FinFET工艺,内部共整合9颗芯片,单精度FP32算力为40TFLOPS,单精度张量TF32算力为160TFLOPS,整数精度INT8算力为320TOPS。相比之下,英伟达基于Ampere架构的A100 GPU的单精度浮点计算能力仅为19.5TFLOPS。
昆仑芯
百度昆仑芯片是百度自主研发的云端AI通用芯片。在2018年7月举办的百度AI开发者大会上,百度公司董事长兼CEO李彦宏正式宣布,百度自研AI 芯片命名为昆仑。百度昆仑1于2019 年成功流片,采用三星14nm制程工艺,目前量产超过2万片,在百度搜索引擎和百度智能云生态伙伴等场景广泛部署。百度昆仑2于2021年下半年实现量产,采用7nm先进工艺,其性能比百度昆仑1再提升3倍。据悉,百度正计划在年底做第三款昆仑芯片。
天数智芯
天数智芯主要包括天垓100和智铠100两款AI芯片,天垓100是一款基于 GPGPU 架构芯片的高性能云端通用并行计算卡,据介绍,天垓100从底层硬件到上层软件都是独立设计开发,不走购买国外GPU IP的捷径,确保了完全自主知识产权。随后天数智芯又发布了其第二款产品“智铠100”,这款芯片被誉为“镇馆之宝”,吸引了众多行业用户的关注。
天数智芯GPGPU计算芯片主要针对云端AI训练+推理和云端通用计算,是国内难得的兼容CUDA等异构计算生态的数据中心高端计算芯片。
03
只靠算力,无法做英伟达的PlanB
英伟达的强不只是体现在硬件产品上,在软件平台中,英伟达也有自己的护城河。
CUDA就是英伟达推出的基于GPU的并行计算平台和编程模型,可以用来加速大规模数据并行计算,使得GPU可以用于更加广泛的科学计算和工程计算等领域。CUDA的良好生态系统吸引了众多学术机构和高性能计算中心的关注和使用,也为英伟达提供了强有力的市场竞争优势。现在AMD也在做同样的事情,只是英伟达已经占了先发优势,AMD搭建起来可能会更为艰难。
CUDA的重要性不言而喻,但是提供CUDA兼容层,需要厂商具备足够的研发实力,上文提到的与CUDA兼容的有沐曦、海光、壁仞、天数智芯等公司,因此是否兼容CUDA也成为衡量AI芯片公司的标的之一。
至于是否一定要兼容CUDA,业界有着不同见解。专家称,在小模型上CUDA仍然很重要,但在大模型上它的地位越来越轻了。如果未来中国市场以小模型为主,那CUDA还是有很大的影响力,而如果是以大模型为主,对于CUDA的依赖就越来越小了。
总而言之,重视软件配适开发至关重要。
对于建立国产IT系统的行动建议包括:设置合理国产系统及芯片性能要求和验证目的,从非关键应用开始尝试导入部分国产芯片;加强软件配适开发,确保软件对不同系统的兼容性、稳定性和运营性能;建立加强对国内基础IT软硬件厂商的投资,确保厂商对产品开发计划的影响力;优先考虑国内供应链和成熟平台,积极采用半导体创新技术。
04
未来与英伟达的差距定然会逐步缩小
目前芯片已经成为半导体行业中最具有发展潜力的领域之一,AI芯片作为推动芯片行业发展的核心市场,其行业价值无法估计,随着AI芯片技术的逐渐成熟,其应用场景逐步渗透到各类智能终端领域中,在我国科技发展中占据越来越重要的地位。
根据Gartner的数据,在目前全球半导体产业中,中国GPU的全球市场占比规模仅1%。2022年,在全球6000亿美元的半导体采购中,中国企业的芯片采购规模达到1490亿美元,占到四分之一;跨国企业的中国工厂芯片采购规模达到2130亿美元,占比35%。
中国的芯片产业还有着巨大的发展潜力。未来,中国芯片产业将继续加大投资,国内企业与英伟达的距离也一定会逐步缩校