北京时间4月10日凌晨,美国亚利桑那州Intel Vision 2024会议上,芯片巨头英特尔(Intel)发布性能最强的新一代Gaudi3 AI 加速芯片,以及全新的下一代英特尔至强6处理器等产品。
其中,英特尔Gaudi 3 AI芯片采用台积电5nm工艺,支持128GB HBMe2内存。相比上代产品,英特尔Gaudi 3带来4倍(400%)的BF16 AI计算能力提升,1.5 倍的内存带宽以及 2 倍的网络带宽提升。同时,在AI模型算力中,相比于英伟达H100 GPU,Gaudi3 AI芯片的模型训练速度、推理速度分别提升40%和50%,平均性能提高 50%,能效平均提高40%,而成本仅为H100的一小部分。
英特尔预计,Gaudi 3将于2024年第二季度起出货,戴尔、惠普、联想、超微电脑等企业将成为首批客户。
与此同时,今晨举行的谷歌云年度大会Cloud Next 2024上宣布推出一款基于ARM架构的服务器芯片Axion,其性能比通用ARM芯片高30%,比英特尔生产的x86最新芯片性能提高50%。谷歌旨在减少对英特尔和AMD x86芯片的依赖。
全球围绕 AI 算力战争已经拉开帷幕。
“现在的半导体竞争是一场产业战争,也是一场全面的国家战争。”韩国总统尹锡悦4月9日宣布该国全面押注 AI 半导体发展,投入9.4万亿韩元(约合500亿元人民币),以帮助韩国成为与中国、美国并驾齐驱的全球三大AI半导体国家之一。
英特尔突袭英伟达H100,新AI芯片训练快40%,推理快50%
就在深夜,英特尔CEO帕特基辛格(Pat Gelsinger)手舞足蹈地亮出了最新AI芯片Gaudi3。
新一代Gaudi 3 AI加速器专为高性能、高效率的生成式 AI 计算而构建,每个加速器都具有独特的异构计算引擎,由 64 个 AI 定制和可编程TPC和 8 个 MME 组成,每个Gaudi 3 MME 都能够执行 64000个并行运算,支持128 GB HBMe2 内存容量、3.7 TB 内存带宽和 96 MB 板载静态随机存取内存 (SRAM) 。
同时,每个Gaudi 3当中都集成24个200 Gb以太网端口,提供灵活且开放标准的网络。而Gaudi 3 的PCIe 功率为600w,带宽为每秒 3.7TB。
性能方面,模型训练层面,Gaudi3比英伟达H100快40%;推理层面Gaudi3比英伟达H100快50%。即便相比最新英伟达H200,Gaudi3 AI芯片的推理速度竟然也提升了高达30%。
英特尔CEO帕特基辛格(Pat Gelsinger)
实际上,随着ChatGPT爆火,AI 模型、数据、算力基础设施成为生成式 AI 技术发展的三大要素。
据Gartner数据显示,2024年,企业在生成式 AI 方向上预期支出达400亿美元,到2027年这一数据增至1510亿美元。与此同时,到2026年,企业对生成式 AI 使用程度达80%,同时至少有50%的边缘计算部署将与AI、机器学习(ML)等方向有关。
然而,AI 技术的全部潜力并没有完全释放出来。仅10%的企业组织去年推出面向生产的生成式 AI 方案;同时,有46%的的专家指出,基础设施是将大模型产品化的最大挑战。
因此,英特尔希望能够利用长期的 AI 技术积累,通过开放生态系统的力量,乘上 AI 热潮。与英伟达部分类似,英特尔也将提供一整套 AI 算力基础设施方案,从而“解锁”企业 AI,推动生成式 AI 的广泛应用和快速商业化,有望帮助企业应对 AI 项目时所面临的挑战。
基辛格在会上表示,到2030年,半导体市场规模将达1万亿美元,而 AI 是其中的主要推动力。
从整体路线图来看,AI PC、Edge AI(边缘)、Data Center AI(数据中心)将成为英特尔三大重要的计算生态系统,比英伟达覆盖面积更广,加上其开放、可扩展的软件和算法特性,广泛适用于多个 AI 领域,从而推动英特尔持续为企业客户打造全新 AI 方案。
具体到技术产品层面,除了英特尔Gaudi3之外,此次开幕活动上还公布了其他四个方向的重要进展:
1、全新英特尔至强6处理器品牌,应用于数据中心、云和边缘场景。
其中,与第二代至强处理器相比,配备能效核(此前代号为Sierra Forest)的全新至强6处理器每瓦性能提高2.4倍,机架密度提高2.7倍,客户能以近3:1的比例替换旧系统,大幅降低能耗,预计将于2024年第二季度推出;而配备性能核的英特尔至强6处理器,可将下一个令牌(token)的延迟时间最多缩短6.5倍,能运行700亿参数的Llama2模型,预计不久后推出。
2、预览下一代英特尔酷睿Ultra处理器。英特尔宣布将推出下一代酷睿Ultra客户端处理器家族(代号Lunar Lake),将具备超过100 TOPS平台算力,以及在神经网络处理单元(NPU)上带来超过46 TOPS的算力,从而为下一代AI PC提供强大支持。据悉,英特尔预计将于2024年出货4000万台AI PC设备。
3、面向网络互连层面的新品部署。与NVLink一样重要,通过超以太网联盟(UEC),英特尔公布面向AI高速互联技术(AI Fabrics)开放技术的以太网解决方案,利用高速互联技术支持AI模型训练和推理,产品组合包括英特尔AI网络连接卡(AI NIC)、集成到XPU的AI连接芯粒(Chiplet)、基于Gaudi加速器的系统,以及一系列面向英特尔代工的AI互联软硬件参考设计。
4、全面更新的边缘计算和Tiber业务组合。英特尔还发布新的Edge芯片产品,包括酷睿TM Ultra、酷睿TM、凌动处理器以及面向Edge的英特尔ArcTM GPU,预计所有新品将于本季度上市,应用于包括零售、工业制造、医疗保健等关键领域,并将于今年获得英特尔Tiber边缘平台的支持。另外,英特尔还发布Tiber业务解决方案组合,以简化企业对生成式 AI 软件服务的部署工作,预计Tiber方案将于今年第三季度全面推出。
英特尔披露,截至目前,英特尔边缘计算处理器销量达2亿块,已边缘部署超过9万个解决方案。
另外,英特尔还宣布联合Hugging Face、RedHat、SAP、VMware等15家公司,将共同创建一个开放、多供应商的生成式AI系统平台,通过RAG(检索增强生成)技术,提供运行大量现存专有数据源得到增强版开放大模型。
英特尔强调,公司不仅将提供包括硬件、软件、框架和工具,而且希望设备制造商、数据库提供商、系统集成商、软件和服务提供商等参与其中,推动英特尔AI开放生态系统的构建,以及将生成式AI技术进行场景落地。
总体来说,基于英特尔5nm Gaudi3 AI芯片,以及至强6处理器和软件栈,该公司正逐步构建 AI 领域的算力基础设施生态,全面挑战英伟达以及现有 AI 芯片市场格局。
英特尔方面去年7月对钛媒体App表示,市场需要替代品。客户非常欢迎英特尔Gaudi方案在向大众部署 AI 方面发挥重要的领导作用。“几十年来,英特尔一直致力于把新的技术普及、普惠到各行各业。通过降低进入门槛,提高市场参与度,从而加快创新速度。”
基辛格在会上强调,“创新技术正在以前所未有的速度发展,每家公司都在加速成为AI公司,这一切都需要半导体技术提供支持。从PC到数据中心再到边缘,英特尔正在让AI走进千行百业。”
为减少对英伟达依赖,谷歌推出ARM服务器芯片
与微软、亚马逊一样,谷歌也推出了多款自研芯片,以减少对英伟达GPU芯片的依赖。
美东时间4月9日周二,谷歌在今年的年度云计算大会Cloud Next 2024上宣布推出一款基于Arm架构的数据中心芯片Google Axion,以及更新TPU v5p芯片。
谷歌表示表示,Google Axion处理器基于Arm Neoverse V2 CPU构建,以Titanium为基础,性能比通用ARM芯片高30%,而且比英特尔生产的当前一代 x86芯片高50%。预计Axion用于多种谷歌服务,并在“今年晚些时候”向公众开放。
谷歌云副总裁兼计算和机器学习基础设施总经理 Mark Lohmeyer 表示:“我们正在让客户轻松地将现有工作负载转移到 ARM。Axion 建立在开放基础之上,在任何地方使用ARM的客户都可以轻松采用 Axion,而无需重新架构或重新编写应用程序。”
“谷歌推出的新型 Axion CPU 标志着交付定制芯片的一个重要里程碑,该芯片针对谷歌的基础设施进行了优化,并构建在我们的高性能 Arm Neoverse V2 平台上。数十年的生态系统投资,再加上 Google 的持续创新和开源软件贡献,确保为在各地运行 Arm 的客户最重要的工作负载提供最佳体验。”Arm 首席执行官 Rene Haas表示。
事实上,Axion 只是众多定制发一份芯片中的最新产品。自2015年以来,谷歌已经发布了五代张量处理单元(TPU);同时,2018年,谷歌发布了第一个视频编码单元 (VCU),视频转码效率提高了33 倍;另外,2021年,谷歌通过投资“片上系统”(SoC) 设计,加大了定制计算的投入,并发布了用于移动设备的三代Tensor芯片中的第一款。
如今,谷歌推出新的芯片意味着,该公司正在追赶亚马逊和微软这些云领域竞争对手的步伐。亚马逊和微软2021年就已经推出Arm架构的CPU,作为提供差异化计算服务的一种方式。而谷歌之前为YouTube、AI及其智能手机推出过定制芯片,但还没有打造过CPU。
具体来说,Axion将适用于一系列任务,包括支持谷歌的搜索引擎和 AI 相关的工作。谷歌表示,该芯片可以通过帮助处理大量数据并为数十亿用户部署服务,在AI领域发挥重要的支持作用。同时,未来谷歌逐步转移到基于Arm云服务器用例上使用,Datadog、Elastic、OpenX 和 Snap都计划采用 Axion。
除了Axion之外,谷歌还宣布全面推出 TPU v5p,用于训练和推理的最强大、可扩展且灵活的 AI 加速器,其计算能力是上一代的 4 倍(400%)。
谷歌CEO桑达尔皮查伊表示,生成式 AI的进步需要强大的底层基础设施。谷歌 AI 超级计算机结合了我们的 TPU、GPU、AI 软件等,为训练和服务模型提供性能和成本优势。如今,领先 AI 公司和 Google Cloud 客户(例如 Anthropic、AI21 Labs、Contextual AI、Essential AI 和 Mistral AI)正在使用其基础设施。
数据显示,虽然广告依然是谷歌最大收入源,但云计算的增长更快,在谷歌的收入中占比不断提高,已接近占公司总收入的11%。据Gartner估算,2022 年,谷歌占云基础设施市场 7.5% 的份额,而亚马逊和微软合计控制着 62% 左右的份额。
谷歌表示,现在已经有超过 90% 的 AI 独角兽企业在使用谷歌的计算资源、模型和开发环境。
如今,谷歌成为继微软和亚马逊之后,第三家用ARM架构推出数据中心CPU的科技巨头,这显示了新的趋势。而且,谷歌还利用TPU优势,全面提供服务器和数据中心闭环服务,降低英伟达、英特尔、AMD芯片的依赖。
有评论称,谷歌开发新芯片是在 AI 竞赛白热化之际减少对外部厂商的依赖。不过,谷歌的官员并没有将芯片新品视为一种竞争之举。谷歌负责自研芯片业务的副总Amin Vahdat说:“我觉得这是做大蛋糕的基矗”
从整体来说,Google Next 2024上展现了整个谷歌云构建的 AI 开放和垂直优化技术栈。
AI Hypercomputer (算力层):TPU v5,Axion,2025年将上线的英伟达Blackwell GB200,以及新增 A3 Mega 计算单元。Gemini Models(模型层):今天谷歌正式开发 Gemini 1.5 Pro API,新增语音模态理解能力、文件访问 API、系统指令以及 JSON 模式等功能。Vertex AI(容器环境层):最方便的 AI 应用开发和运行环境,集成了除 OpenAI 之外的所有模型,方便调用、微调和各种开发测试。应用层:谷歌提供Gemini for Cloud、Workspace & Agent等产品组合中,即Gemini AI 产品将全面集成到 Cloud 与 Workspace 两大产品线,而且还预开发了一堆 AI Agent(代理),支持客服、雇员、创意、代码、数据、安全代理等等。
英伟达真的危险了吗?黄仁勋:依然很稳
那么,前有谷歌、微软、亚马逊“造芯”,后有英特尔“弯道超车”,英伟达真的危险了吗?
2023年12月初,AMD高调推出了MI300系列产品。据介绍,MI300X芯片拥有超过1500亿个晶体管,内存密度是目前英伟达H100的2.4倍,内存带宽是其1.6倍。AMD首席执行官苏姿丰称,这款新芯片在训练 AI 软件的能力方面与英伟达的H100相当,并且在推理方面表现得更好,不过这一说法也未得到独立验证。
今年3月底,英伟达正式发布了新一代人工智能计算芯片B200。英伟达CEO黄仁勋表示,B200 GPU的AI运算性能在FP8及新的FP6上都可达20 petaflops,是前一代H100运算性能的2.5倍。
如今,随着Gaudi 3的正式发布,当前AI芯片市场呈现出英伟达B200、AMD MI300系列和英特尔Gaudi 3"三巨头"竞争的格局。英伟达在AI芯片领域"一家独大"的局面面临来自另外两家厂商的挑战。
不过,从黄仁勋角度来看,英伟达的生态系统很稳定,在当前AI算力"军备竞赛"中,英伟达依旧暂时是市场的佼佼者。
黄仁勋前段时间这段话其实表达的非常明确:“数据中心需要你运营它。购买和销售芯片的人考虑的是芯片价格。运营数据中心的人考虑的是成本,我们总拥有成本(TCO)非常好。即使竞争对手芯片是免费的,他们也不如我们,客户也不会买。我们的目标是增加更多的价值。但这背后需要很多努力,我们必须不断创新、我们不能把任何事情视为理所当然、我们有很多竞争对手。”
事实上,AI 芯片是一个不断向前“奔跑”的高技术行业。它没有垄断,只有不断创新提供更大价值,才有可能让企业持续保持领先地位。因此,无论是英伟达还是英特尔,他们都有非常强大的市场竞争力,也都有望成为 AI 加速计算市场的“领先者”。
如今,在服务器市场,AMD正在逐渐蚕食该公司的市场份额。据市场调研机构Mercury Research所公布的2023年第四季度AMD处理器市场份额统计数据,AMD EPYC已经拿下了23.1%服务器市场份额,份额占比再次扩大。尽管EPYC作为通用处理器,算力上不如GPU加速器,不过该产品可与GPU加速器、AI加速器等协同工作,实现效率的最大化。
而全新英特尔 AI 芯片Gaudi,预计将不太会在中国大陆市场销售。但从全球来看,它是否真的能如其所言的,凭借性能优势、极具竞争力定价优势而占领更大的市场份额,一切还有待时间的检测。
(本文首发钛媒体App,作者|林志佳)