本报记者 秦枭 北京报道
ChatGPT在全球的关注度持续火热,再次将AI产业推到聚光灯下,科技巨头争相谋局落子,继微软、谷歌之后,国内企业百度、阿里巴巴等也先后发布大模型,并进行用户测试和企业应用接入。随着AI产业迎来“iPhone时刻”,算力需求正在持续释放,以AI服务器核心零部件GPU(图像处理器、加速芯片)为代表的供给端走俏,其价格也在不断上涨,而在AI芯片GPU市场占据绝对优势的英伟达也赚得盆满钵满。
多位业内人士在接受《中国经营报》记者采访时表示,大型模型通常需要庞大的算力和存储资源来进行训练,GPU已成为 AI 加速芯片通用性解决方案,越来越多的企业和个人开始使用GPU来训练大型深度学习模型。这种需求的增加可能导致GPU的价格上涨,从而导致显卡价格的上涨。此外,由于供应链问题、半导体短缺等因素的影响,显卡价格的波动也可能受到一定程度的干扰。
英伟达大秀肌肉
AI场景需要多核、高并发、高带宽AI芯片。AI芯片,也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。当前,AI芯片主要分为GPU 、FPGA,及以TPU、VPU为代表的ASIC芯片,而 GPU凭借其高性能、高灵活度特点成为AI 加速方案首眩据 IDC 数据,预计到2025年,GPU仍将占据AI芯片80%市场份额。
资料显示,2018年OpenAI开发的GPT-1的预训练大模型参数为1.1亿,2019年发布的GPT-2提高至15亿,2020年GPT-3的预训练大模型参数已经提高至1750亿。而为了训练ChatGPT,OpenAI构建了由近3万张英伟达V100显卡组成的庞大算力集群,GPT-4更是达到了100万亿的参数规模,其对应的算力需求同比大幅增加。
TrendForce分析认为,要处理近1800亿参数的GPT-3.5大型模型,需要2万颗GPU芯片,而大模型商业化的GPT需要超过3万颗。GPT-4则需要更多。
不仅如此,目前主流 AI 厂商都进入了“千亿参数时代”,多采用了英伟达的 GPU。以科大讯飞星火认知大模型为例,其使用了英伟达的T4 Tensor Core GPU进行训练。除了T4 Tensor Core GPU,科大讯飞还使用了其他类型的GPU和其他硬件设备来支持其深度学习平台的开发和应用。这些硬件设备包括英伟达的PaddlePaddle、NVIDIA Tesla V100、AMD EPYC等,以及多种CPU、内存、网络设备等。
昆仑万维集团CEO方汉也表示: “超过千亿级别的大模型,它的训练大概需要10002000张A100的卡,没有2000张A100的卡,实验都做不了。”
招商证券指出,从通用服务器到AI服务器,一个最显著的变化就是GPU取代了CPU成为整机最核心的运算单元以及价值量占比最大的部分,传统服务器通常至多配备4个CPU+相应内存和硬盘,在AI服务器中,通常是2颗CPU+8颗GPU,部分高配4U服务器中甚至可以搭配16颗GPU,预计AI服务器中GPU+CPU+存储的价值量占比有望达到80%以上的水平。
据统计,英伟达当前在售的用于大模型训练的GPU卡至少有9款型号,其中高性能的有4款,分别是V100、A800、A100及H100。而此轮AI“军备竞赛”也让用于上述显卡的价格一路高涨。其中,A100此前售价在1.5万美元(约合人民币10.35万元),但目前在一些平台上,此款显卡价格上涨到15万元左右。
英伟达也借机赚足了“钱包”。TrendForce 数据显示,如果以英伟达 A100 显卡的处理能力计算,GPT-3.5大模型需要2万块GPU来处理训练数据。目前英伟达 A100 显卡的售价在 10000~15000 美元之间,预估英伟达可以赚3亿美元(约20多亿元人民币)。
值得注意的是,英伟达还在源源不断地为这场军备竞赛输送弹药。在此前GTC开发者大会上,英伟达推出了新的Hoppper CPU配有双 GPU NVLink 的 H100 NVL,这是专门针对算力需求巨大的 ChatGPT 而设计的显卡,拥有夸张的 188GB HBM3 内存(每张卡 94GB)。
不过,即使价格上涨,目前市面上几乎“一卡难求”。一位业内人士对记者表示,客户对英伟达A100/H100芯片需求强劲,后者订单能见度已至2024年,更紧急向代工厂台积电追单。
国产厂商的机遇
虽然国内外的大模型项目接连落地,但除了百度、阿里巴巴等企业采用自研芯片外,国内大多数企业仍难求高端GPU。据透露,国内可用于训练AI大模型的A100大约有4万5万个。
英伟达在去年收到美国政府的通知,通知称:“若对中国(含中国香港)和俄罗斯的客户出口两款高端GPU芯片A100和H100,需要新的出口许可。”不仅如此,该许可证要求还包括未来所有的英伟达高端集成电路,只要其峰值性能和芯片间I/O性能均大于或等于A100的阈值,以及包括这些高端电路的任何系统,都被纳入许可证限制范围。
不过,英伟达针对中国客户推出了替代型号A800,与原有的A100系列计算卡相比,A800系列的规格基本相同,比较大的区别在于NVLink互连总线的连接速率,前者为600GB/s,后者限制在了400GB/s。综合使用效率只有A100的70%左右。前不久英伟达还发布了特供版的 H800,作为其旗舰芯片 H100 的替代版。
4月14日,腾讯云正式发布新一代HCC(High-Performance Computing Cluster)高性能计算集群。据悉,该集群采用腾讯云星星海自研服务器,搭载英伟达最新代次H800 GPU,H800基于Hopper架构,对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800相比,H800的性能提升了3倍,在显存带宽上也有明显的提高,达到3TB/s。
伴随着近期宏观经济回暖以及国内互联网企业纷纷加大AI算力布局,PC和服务器的需求上升有望为国内GPU市场带来整体拉动效应。
目前,国内已涌现出一批优秀的GPU设计和制造厂商。
其中,海光信息目前已经成功掌握高端协处理器微结构设计等核心技术,并以此为基础推出了性能优异的DCU产品。其深算一号产品和英伟达A100及AMD高端GPU产品(MI100)进行对比,单芯片产品基本能达到其70%的性能水平。
值得注意的是,上述业内人士表示,虽然国内的GPU厂商取得了一些成绩,但是由于GPU研发难度大、开发周期长,例如A100,英伟达只用了三个月的时间便研发出替代方案,而国内却并不多见。而且目前中国GPU开发者大多使用国外厂家提供的IP,自主性不高,不过经过多年沉淀是能够实现国产替代的。