华为发布Mate 60 Pro已经过去了一段日子,美国的技术观察者和政策分析者,仍处于突然得知中国在重重限制下突破7nm工艺的震惊中。
知名技术播客semianalysis写了一篇长文,详细分析了华为在芯片领域的突破,它的良率、产能与扩产,它对苹果、高通与联发科等全球巨头的冲击,以及它实现5nm制程的可能性。文章还分析了中国将如何借此提升国内AI芯片制造能力,实现在大模型与人工智能领域的突破。
文章站在美国的立场,很悲观地指出,按照美国商务部去年制定的标准,已经无法阻止中国突破壁垒。作者进而提出了一大串强化限制的措施,即使这将使成本因再复制一套半导体供应链而高得离谱。这也值得中国的芯片从业者与政策制定者警惕一些美国制裁失败论背后的真实用意。
原文选择核心章节编译如下,文字有删改,供批判阅读:
华为麒麟9000S
让我们直接进入热点话题。
华为由中芯国际生产的麒麟9000S,使用华为定制的Armv9内核和GPU架构。在中国,设计领先架构是一件大事。
虽然美国过去已经阻止了AMD和英特尔与中国的各种CPU交易,但它还没有能阻止Arm。
部分原因是Arm在中国的合资企业不受其直接控制。另一个原因是Armv9指令集来自Arm剑桥。此外,他们还利用Arm许可的A510内核(基于ARMv9 64位指令集架构)。它由Arm法国索菲亚研发中心和剑桥设计。
从技术上讲,这款芯片令人惊叹。在各种测试中,性能和功耗与1-2年前的高通芯片(S888和S8G1)相媲美。芯片的射频方面也令人惊叹,使用的集成调制解调器与高通当前的最佳产品媲美。
鉴于华为在被禁止使用台积电之前,就稍微领先于高通,这并不令人惊讶。最重要的一点是,射频前端芯片也是国内生产的,这是许多人原本认为的中国所缺乏的能力。
最令人震惊的发现是,当对相同IP进行直接比较时,建立在中芯国际N+2(7纳米)工艺上的华为麒麟9000S上的Arm A510,与2022年高通在三星4LPX工艺上生产的S8G1相比,性能和功耗实际上是相当的,尽管它们的工艺技术还存在差距。
这表明中芯国际N+2比大多数西方国家意识到的要好。这些芯片之所以如此接近,部分原因是三星的良率较低,中芯国际的良率较高。
简而言之,麒麟9000S是一个比西方意识到的更好的设计芯片。它有稳定的功耗和性能。即使出口管制不理想,这也是一个在2021年将位于前列的先进芯片,而且是在没有EUV、没有尖端美国知识产权的情况下完成的。
对联发科、高通和苹果的影响
量化它对苹果的影响非常简单。
由于2019年下半年,华为遭到了禁令,苹果额外获得了大约3500万至4500万部iPhone销量。这轻松地为苹果带来了超过200亿美元的年收入。如果华为能够重拾旧路,这些都可能会蒸发。这只是智能手机。对平板电脑、智能手表和笔记本电脑的影响,对苹果来说将更大。
对联发科和高通的影响甚至更糟。
在华为被禁之后,市场上每年消失了1.9亿的华为SoC单元。联发科和高通是主要受益者。从2020年到现在,这一份额转移到了小米、OPPO和Vivo等其他中国厂商。如果华为重拾雄风,我们预计联发科和高通将最多损失76亿美元的收入。
高通可能受到冲击的估算
当然,这发生在14亿部智能手机市场,目前的运行率低于12亿部。
华为重拾佳绩的能力,主要取决于中芯国际的制造能力。我们认为后者非常强大。
真正的7纳米,不错的良率
就密度而言,该工艺是真正的7纳米工艺。虽然与台积电2018年7纳米的不同,但它应被视为类似的工艺技术。中芯国际最多只落后台积电几年,落后英特尔和三星更少。
由于中芯国际正在复制其他地方已经完成的工作,加上来自中国内地以及许多从台积电挖角的台湾移民组成的优秀工程师团队,这个差距可能会进一步缩校
如前所述,它在性能和功耗方面与三星的4LPX相当。它最大的大问题是良率与产能。
虽然一些评论员声称良率只有10%,但我们不这么认为。事实上,我们认为中芯国际工艺良率很高。这里没有确定的数字,但有一些数据点表明了这一点。
为什么?我们听说中国的消息来源轻描淡写地说良率很好。据说,他们的D0(平均缺陷密度,表示每单位面积下的故障数)当前约为0.14。相比之下,台积电的N5和N6节点约为其一半。当然,台积电是黄金标准,三星与英特尔的“7纳米”更接近,尽管仍领先于中芯国际目前的成就。
良率如此可观,就是中芯国际N+2工艺健康发展的巨大信号。参数良率是更重要的未知指标。但道听途说是不够的。
更有说服力的证据是FinFET(形状与鱼鳍相似的晶体管)上的通道、栅极和漏极,触点以及较低的金属层(这些术语都描述了芯片的结构元素,它们与性能相关)看起来相当干净。低良率的工艺可能不会那么统一。参见TechInsights公开简报中的这些图像。
最后一个原因,与芯片的Binning相关。在半导体制造中,这是指在制造和测试后对集成电路(如CPU或GPU)根据其性能和质量进行排序和分类的过程。
虽然芯片可能存在被称为灾难性良率(由于各种物理缺陷导致完全无法工作的芯片数量占比)的有缺陷晶体管,但在许多情况下,工作的晶体管仍无法通过各种性能和功耗测试。这被称为参数良率(在测试期间,能够达到设计目标的性能参数的芯片数量占比,如指定的时钟频率、电压、功耗等下,在不同环境下它是可变的)。如果一个工艺技术的参数良率较低,管理芯片良率的公司可以通过降低封装工艺的严格程度。更多芯片可以通过各种测试,但它也会导致更高的可变性(即消费者买到的产品可能差异很大)。
这已经在过去良率较差的手机芯片上实现过。
例如,三星4LPX上的高通S8G1。就S8G1而言,具有相同芯片的不同设备在相同环境条件下完全过热时,性能差异可高达10%以上。虽然我们还没有看到就麒麟9000S在许多设备在相同环境下的严格测试,但在各种中国论坛上有足够的证据表明,设备之间的差异相当低。
这都不是确定无疑的证据。但我们认为,中芯国际具有不错的良率。有些评论员声称的10%良率,低估其重要性。这是真正的大批量生产工艺。就像苹果是台积电工艺节点的小白鼠,帮助它们提高产能一样,华为也将以同样的方式帮助中芯国际。
敬请留意,华为发布了第一款台积电N5生产的芯片,因此,他们完全有能力发挥这个角色。
在两年内,中芯国际可能能够生产用于人工智能和网络应用的大型单片芯片。这与博通和英伟达向新工艺技术过渡的时间尺度相似。
中芯国际的设备和工具
这是因为他们能够有效地使用所有台积电和英特尔拥有的用于其“7纳米”工艺的相同工具。虽然在理论上存在工具限制,但它们实际上毫无意义。
尽管中芯国际的N+1工艺已经违反了制裁,但美国继续向使用美国技术的半导体制造设备公司颁发许可证。中芯国际、长鑫存储和许多其他中国公司,继续进口他们需要的任何工具,追求超过制裁的工艺技术。美国实际上没有任何禁令,最终用途检查也没有成功。
设备公司,如应用材料、Lam Research、东京电子、KLA、Screen、ASM International、Kokusai等,基本上都在向中国销售他们提供的所有设备与工具。
这是因为用于7纳米甚至5纳米的大多数沉积、蚀刻、计量、清洗、涂布、显影、离子注入、外延等工具,也可以合理用于28纳米。这些工具以“28纳米”的名义,出售给中芯国际。
虽然中芯国际正在扩大28纳米和其他低端节点,但这比他们声称的要少得多。因为这些工具正在转向到前沿产品。
出口管制失败了。
光刻设备
光刻技术的世界与其他工具有点不同。确实,对特定的DUV工具,有一些限制。问题是,它们对防止7纳米毫无意义。
中国可以并能够使用目前允许的光刻工具提高7纳米产能。NXT: 1980i(DUV光刻机的一款型号)和改进的Di、Ei和Fi工具(另外三款重要光刻机平台)可以在当前限制下进口和维修。
原始的1980i,是台积电用于将其7纳米(N7)提升到每月超过10万片晶圆的工具,良率非常高。1980i系列也被英特尔用于其“7纳米”。
任何熟悉这个领域的人都很清楚这个漏洞。这是一个无效政策的完美例子,其宣称的目标是阻止进一步发展,同时给中国留下一个明显的漏洞。ASML继续受益,并计划大幅增加DUV,主要由这些“老”工具主导。
中芯国际的产能不受限制
尽管中芯国际7纳米工艺中有60多层光刻,但只有大约40层是关键层。但为了讨论的完整性,我们假设需要最近的1980工具。实际上,来自尼康等供应商的较老的ArFi工具,以及ArF/KrF/I-Line(以上均指不同波长的光源,对应的是不同的光刻机型号)也可以用于许多层。
ASML声称最新1980Fi每小时可以做330层光刻。但我们认为,这有点过于乐观,而且是根据较低剂量计算的。让我们保守一点,中芯国际使用ASML声称的2倍剂量,而且他们拥有一批Di,而不是Fi。这意味着每个工具每小时可以做约165层。
我们听说,中芯国际从ASML获得了超过30台先进的ArFi工具。他们还订购了更多的光刻工具,包括最新1980Fi。这些工具支持他们所有工艺节点,可以用于7纳米和5纳米。
我们还听说,他们的第一个7纳米Fab将在2024年第二季度末前,拥有15台ArFi工具。在那之后,还需要几个季度进行量产调试。有传言称,他们的下一个Fab将更大。来自中国的更多传言称,第一个Fab每月将有5万片7纳米晶圆。当我们第一次听说它时,这个数字似乎太大了。
虽然我们无法验证这些来自中国的说法,但中芯国际似乎可以很容易地在其7纳米厂房中,达到每月3万片实际产量,而不需要从其他后端晶圆厂获取工具。
中芯国际产能的估算
这与他们可以将需要1980i的层数降低到50层,并使用接近ASML所称剂量的乐观估计吻合。
即使良率只有50%,每月3万片,也可以支持每年超过1000万片英伟达H100 GPU芯片。当前对类似CoWoS或高带宽存储器(HBM)的先进封装设备也没有限制。
5纳米是可能的
ASML正在加紧提升到每年可交付超过400台ArFi工具,并声称到2025年,DUV工具产能将达到600台。超过一半的产能用于满足他们认为来自中国晶圆厂的需求。虽然这些工具将广泛分发给许多公司,但中芯国际是ASML在中国最大的个人客户。
ASML公开表示,每年额外增加15万片过剩/低效产能,到2030年过剩/低效晶圆每月将超过150万片。ASML称这是由于半导体供应链的区域化。但这只是掩盖了中国实现半导体自给自足,并利用DUV达到5纳米的目标。
要非常明确,这已经明确地纳入了ASML的产能计划和预测,即从半导体制造的角度,中国将实现半导体自主。这与他们最后一次投资者日的说法一致。供应链的其他部分当然仍然高度交织,包括设备、消耗品和设计IP。
使用ArFi多重曝光技术,可以以高良率实现超过每平方毫米1300万晶体管的“5纳米”工艺。1980i系列的叠加精度,足以在可接受的良率下制造5纳米。
鉴于政府补贴水平,这种中芯国际N+3“5纳米”工艺的生产,也具有经济效益。虽然缺乏EUV,会使我们估计的光刻总成本增加55%至60%。但请记住,光刻当前在5纳米节点,只占总工艺成本的约30%。
这意味着总工艺成本只会比使用EUV的5纳米高约20%。
良率可能会受到打击,因此由于每个晶圆的缺陷芯片更多,实际数字会更高,但对中国来说,这不会是一个无法逾越的障碍。
如果当前的限制保持不变,我们预计,华为和中芯国际将在2025年或2026年拥有真正的5纳米芯片。大规模人工智能芯片也会在不久后问世。当前的出口管制,没有限制中国的制造能力或产能。
中国人工智能能力
制造能力并非遥不可及,但即使没有这些国内制造能力,中国的人工智能能力也将非常强大。
到2024年底,中国总共将拥有超过100万块等效英伟达A100或更好的芯片。请记住,GPT-4是在约2.4万块A100上训练的,而即使到明年底,OpenAI拥有的先进GPU也将不到100万块。
当前对中国的人工智能的限制,充其量也就那么回事。英伟达很快就制造了与A100和H100具有同等性能的新版本GPU,命名为A800和H800。这些GPU没有削减总算力或内存带宽。虽然NVLink速度被削减至400GB/s,但对于大多数并行策略来说,这都不是限制。例如8倍张量并行、完全分片数据并行和流水线并行(以上均为并行计算时采用的策略)。这些降级,也无法进行最终用途检查。如果硬件没有熔断,它们可能会像英伟达以前的加密挖矿限制一样反转。
此外,对于部署了数万块H100 GPU的最高端系统,每个GPU到服务器外部网络上其他GPU的以太网/Infiniband IO只使用50GB/s。限制的门槛是总芯片间IO为600GB/s。在当前有缺陷的制裁下,比H100更好的芯片可以在国外制造,然后合法进口。例如,理论上的3纳米芯片,其FLOPS是H100的10倍,内存带宽是5倍,以太网/超高速以太网/Infiniband带宽是500GB/s,可以在当前的限制下进口。晶圆级芯片/封装也可以在当前限制下进口。
中国很快就会拥有来自西方公司的尖端芯片,并有能力很快训练出比GPT-4更好的等效模型。
国产人工智能芯片能力
有许多成熟的玩家和人工智能硬件创业公司,即将能够提供与英伟达A100媲美的芯片。
它们包括华为、壁仞、腾讯、阿里巴巴、百度、沐曦等。
我们今天不详细介绍它们的能力,但它们可以在2年内,轻松地在中芯国际7纳米工艺上,提供A100级芯片,产量很大。软件无疑是一个挑战,但中国的软件开发者总数比美国、加拿大和欧洲加起来还要多。这也不应该是一个无法逾越的障碍。
这些芯片大多使用了美国企业的EDA知识产权,如Cadence、Synopsys和Mentor Graphics(Siemens)。华为通过大规模投资正在快速推进国产EDA。一些玩家像沐曦,通过制造兼容CUDA的芯片,来模仿英伟达。其他像壁仞,就有许多来自英伟达上海的设计师,他们的架构与英伟达的很相似,而且是很好的架构。
随着中国国内半导体制造能力的发展,微架构和系统设计将不断演进,比H100更好的芯片就在眼前。中国有能力组建和联网非常大的超级计算机。此外,中国还拥有领先的光学制造能力,如中际旭创。先进封装也在迅速发展。
先进封装和光学的结合,将使中国能够在国内生产的半导体上保持竞争力,即使被限制在5纳米或7纳米工艺。
仅明年一年,中国就会有多家公司能训练出优于GPT-4的模型。这甚至都不需要质疑。
射频和传感器
顺便说一句,除了一些次要的无效制裁外,几乎没有任何针对无线电/传感器能力的举措。从历史上看,通信和传感器技术在国防安全中最重要。虽然随着无人机使用的快速增加,这可能正在改变,但最先进的无人机在硬件上看起来非常像手机硬件。
中国通过各种先进的化合物半导体,继续改进这项能力。中国本土的碳化硅和氮化镓工业所进口的设备,也被用于类似的无线电应用中。此外,还有许多公司如意法半导体,其技术是SpaceX Starlink的核心,正在积极合作并进行合资/知识产权转让。
这种合资/知识产权转让,将在几乎不需要改造就可以将获得的技术应用于射频应用的借口下,大大加速中国的能力。
文章链接:
https://www.semianalysis.com/p/china-ai-and-semiconductors-rise