展会信息港展会大全

英伟达A100限令将重创中国自动驾驶
来源:互联网   发布日期:2022-09-05 10:26:11   浏览:11489次  

导读:作者:陆三金 从昨晚开始,美国政府针对英伟达、AMD高性能芯片的限华令传闻,引发了人们对中国人工智能行业的担忧。 北京时间9月1日早间,据外媒报道,英伟达在向SEC提交的声明中表示,已于8月26日接到美国政府通知,该通知对其未来向中国(包括香港)和俄罗...

作者:陆三金

从昨晚开始,美国政府针对英伟达、AMD高性能芯片的限华令传闻,引发了人们对中国人工智能行业的担忧。

北京时间9月1日早间,据外媒报道,英伟达在向SEC提交的声明中表示,已于8月26日接到美国政府通知,该通知对其未来向中国(包括香港)和俄罗斯的A100\H100芯片的任何出口实施了新的许可要求,立即生效。

并且,未来峰值性能和I/O性能达到或高于A100的芯片,都在新的许可证要求范围之内。

北京时间9月1日中午,英伟达CEO黄仁勋发布全员邮件称,将寻求最佳替代方案以满足中国客户的需求,在不能更换的地方寻求(美国政府的)许可。

黄仁勋称,对A100完整性能有需求的客户,替换产品或将不能满足他们的需求。然而,对于大多数客户来说,替代产品应该可以满足他们的需求。

英伟达、AMD此次被限制出口的芯片主要是用于云端数据中心的高性能AI芯片,即GPGPU(通用GPU),主要用于人工智能算法的训练。

目前,国内的蔚来、小鹏、毫末智行等都在基于英伟达A100打造自动驾驶训练中心。

随着各车企在城市NoA上如火如荼地推进,对云端训练算力的需求也水涨船高,远高于高速NoA对云端算力的依赖。很不幸地,美国政府的这一道限令,已经实质性地打击到了中国的自动驾驶行业。

针对英伟达A100\H100限令,国内某相关自动驾驶公司表示:影响很大,正在研究相关对策,寻求国产替代可能是接下来的出路。

8月5日,在2022年Q2的特斯拉财报会上,马斯克更新了特斯拉自动驾驶业务的进展:截至目前,FSD Beta版测试用户已经累计行驶约4,200万英里。而在两周前,这一数字约为3,600万英里。

英伟达A100限令将重创中国自动驾驶

基于现有增速推算,特斯拉FSD Beta版测试用户的累计行驶里程将很快突破1亿英里。马斯克称,“从今年开始,特斯拉处理的真实世界数据将会迎来井喷,因为我们的每一辆车都实时在线。”

从上图来看,FSD Beta里程数在每次扩大人群范围后,都将迎来更陡峭的增长曲线,这是很容易理解的。

特斯拉最初在2021年7月10日,向2000名测试用户推出了FSD Beta,版本号v9;

10月22日,向安全驾驶分为100分和99分用户推送,版本号v10.3;

2022年3月13日,向6万人推送,版本号v10.11;

6月6日,向安全驾驶分93以上的用户推送,达10万人,版本号v10.12。

马斯克计划在今年年底向100万人推送FSD Beta,这与其目前100万的高速NoA用户规模是相当的。如果这个目标顺利推进,其背后的数据量还将再迎来指数级的增长,在云端的标注、训练规模也将是指数级增长。

特斯拉已经在云端基础设施方面做了大量的工作。

特斯拉曾在2021年CVPR上公布了采用英伟达A100的云端训练集群,并在之后的8月19日特斯拉AI Day上,正式对外发布了超级计算机Dojo。

关于自动驾驶对云端算力需求方面,英伟达汽车业务负责人Ali Kani有个说法可供参考。

在2021年12月的德意志银行汽车技术会议上,Ali Kani表示,汽车主动安全系统(注:例如AEB等)所需的训练和模拟规模非常校而更高级别的L2级辅助驾驶,对云端算力有较高的需求。例如特斯拉正在构建的L2+基础设施中,已经宣布采用了近10000块英伟达GPU。

Ali Kani称这只是L2+和每年100万辆汽车的水平。如果从L2+升级到L4,对计算量将有10倍的提升。如果未来全球每年1亿辆新车都升级到L4,这里又有100倍的增量。

目前,特斯拉已经购入了2万张左右的英伟达GPU,并计划于今年9月30日上再次公布D1芯片以及Dojo超级计算机的最新进展。

马斯克曾在2021年财报会上表示自研D1芯片并不是必须的,主要是出于成本、效率的考量。英伟达的通用GPU对特斯拉来说不是效率最高的,设计专用AI芯片是效率更高的方式。

Dojo项目负责人Ganesh Venkataramanan曾在去年的AI Day上介绍了特斯拉之所以打造Dojo的三个核心诉求:

为了实现最佳的AI训练性能;

可以使用更大、更复杂的神经网络模型;

节能、且成本更低。

特斯拉有着雄心勃勃的销量计划以及FSD推进计划,再加上即将推出的人形机器人Tesla Bot,也是个对云端训练算力有着强依赖的产品,特斯拉脱离英伟达的体系、自研Dojo的布局是出于更长远的考虑。

在国内,蔚来最早官宣了和英伟达A100的合作。2021年底,蔚来宣布将采用英伟达A100 80G和Mellanox InfiniBand ConnectX-6打造超级计算机。这个超级计算机主要是用于自动驾驶训练,但此后蔚来并未进一步公布其在数据中心方面的规划。

除了蔚来,8月2日,小鹏汽车联合阿里云,宣布在内蒙古乌兰察布建成中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。

小鹏“扶摇”数据中心,算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏汽车自动驾驶核心模型的训练速度提升了近170倍,该数据中心目前已经用于小鹏城市NGP的算法模型训练。

何小鹏在发布会上称,与高速道路相比,城市路段的交通状况更复杂、自动驾驶特殊场景(corner case)的数据集规模增加了上百倍。

小鹏将在自动驾驶方面建立三套数据闭环,分别用于:

影子模式,用于corner case的训练;

高精地图;

全自动标注。

之所以自建“扶摇”数据中心,是因为小鹏汽车发现从去年底开始,云计算费用在飙升,这时的小鹏已经开始做城市NGP的相关工作,采取自建的方式在更长的周期内是更划算的。

何小鹏在那场发布会后对媒体称,小鹏汽车未来在数据中心方面的投入可能要高达10亿元/年。

尽管小鹏没有公布“扶摇”数据中心的AI芯片选型,但从目前英伟达A100在全球智能数据中心大杀四方的表现来看,这一数据中心的GPU部分很有可能是英伟达A100。

除了小鹏,长城系自动驾驶公司毫末智行在其2021年12月23日的AI DAY活动上,对外公布了数据智能系统“雪湖”。

毫末智行CEO顾维灏认为,量产智能驾驶的竞争,主要是两个维度的竞争:

一个是时间维度,即算法迭代的周期中,处理海量数据的速度有多快,能力提升的速度有多快。

一个是成本维度,即在整个算法迭代周期中,处理海量数据所消耗的计算资源、存储资源、带宽资源的成本。

这两方面都与数据中心有着非常强的相关性,作为AI算力的主要提供者,GPGPU、AI训练芯片,自然是重中之重。

英伟达A100(以及即将上市的H100),是全球人工智能的底座,并在自动驾驶训练领域有着广泛的应用,美国扼住此类芯片出口,相当于在全球范围内自动驾驶的竞争中,扼住了中国的脖子。

英伟达之所以如今在云端AI计算呈统治地位,是其多年来在深度学习领域的积累。

2021年,英伟达首席科学家Bill Dally在IEEE组织的会议上,回顾了英伟达在深度学习硬件上的发展历程。

他表示,英伟达从2012年的K20X到2020年的A100,GPU的推理性能提高到原来的317倍,英伟达称之为“黄氏定律”,远超摩尔定律的发展速度。

英伟达A100限令将重创中国自动驾驶

GPU推理性能提升

2012年,AlexNet的横空出世让英伟达开始意识到深度学习的巨大潜力,作为显卡厂商,其并行计算能力开始显露头角。英伟达敏锐地意识到市场机遇,在保留了GPU传统渲染能力的同时,增加了对于通用计算和神经网络运算的能力,推出GPGPU。

英伟达几乎每隔两年迭代一次GPU架构,并引入最新的技术,以适应最前沿的加速计算应用。黄仁勋后来总结这些计算的特征时表示,从计算机图形学,到科学计算,再到深度学习,都是通过并行计算来进行加速计算。

2016年英伟达推出的Pascal架构,是针对的深度学习设计的芯片架构,更适合深度学习,并开始支持FP16(半精度浮点计算)训练;

2017年推出的Volta架构,引入了Tensor核心单元,可用于深度学习的加速;

2018年的Turing架构,最大的特点是引入了光追核心单元,这和图形学相关,和深度学习关系不大;

2020年推出的Ampere架构,一大特点是支持稀疏性,结构化稀疏让A100实现了性能飞跃。

英伟达A100限令将重创中国自动驾驶

2022年推出的Hopper架构,则引入了Transformer引擎。

随着英伟达每一代架构的发布,其在游戏显卡、移动端、云端,都将各推出一系列产品。

游戏显卡很好理解,即英伟达推出的10系列、20系列、30系列以及即将推出的40系列显卡,这是英伟达发家的业务,英伟达“核弹”的称号最初也来自这一领域。

自移动端市场不敌高通之后,英伟达就退出了手机、平板等市场,专心在汽车、机器人等领域耕耘,Parker、Xavier、Orin即是相应的芯片产品。

英伟达A100限令将重创中国自动驾驶

云端市场,英伟达分别推出了P100、V100、A100等训练芯片,以及P4、T4等云端推理芯片。

黄仁勋在去年底底接受The Next Platform采访时表示,之所以英伟达在超级计算机GPU加速领域没有敌手,

是因为HPC系统只要求两点性能和价格,HPC数据中心需要提前几年签订订购合同,但要怎么确定还不存在的硬件的具体性能?英伟达有靠谱的计算方程,能承诺也能做到,所以就这样了。

英伟达近几年在云端AI芯片的性能进步尤为神速,尤其是2020年推出的A100和即将推出的H100,也就是被美国政府禁掉的两款芯片。

英伟达A100限令将重创中国自动驾驶

英伟达A100 GPU,基于Ampere架构,采用7nm制程,其芯片面积是826平方毫米,晶体管数量542亿颗,TDP(热设计功耗)为400W,FP32峰值算力为19.5TFLOPS。

英伟达A100限令将重创中国自动驾驶

*采用稀疏技术显示

A100最高配置版本为80G显存,搭载第三代Tensor核心,搭载了第一代多实例GPU技术,采用第三代NVLink,内存带宽可达2TB/s+。

2022年3月发布的H100,采用全新的Hopper架构,台积电4N工艺制造,拥有800亿个晶体管,搭载了HBM3显存,片上带宽为4.9TB/s,显存容量为80G。另外,H100也是首个支持PCIe 5.0的GPU。

英伟达A100限令将重创中国自动驾驶

*采用稀疏技术显示

如果A100相对于之前的V100是个飞跃,H100相对于A100的提升也不逊色。

H100在FP8格式下的算力为4000TFLOPS,是A100的6倍;

FP16格式下算力为2000TFLOPS,是A100的3倍;

FP32格式下算力为1000TFLOPS,是A100的3倍;

FP64/FP32格式下算力为60TFLOPS,是A100的3倍。

其中,FP8是英伟达最新引入的Tensor处理格式。

除了算力跃进,再加上新引入的Transformer引擎,正好可以适应自动驾驶公司纷纷在BEV算法中引入的Transformer模型,H100自发布以来一直就被寄予厚望。

现在这一切可能都要烟消云散。

按照老黄的说法,如果给中国客户寻找替代方案的话,目前看可能要退回12nm的Volta架构产品V100了,这显然对于自动驾驶训练应用,会显得比较吃力。

英伟达除了在市场规模以及硬件性能上拥有优势,其在CUDA生态上的优势,也是多年来独霸这个市场的关键所在。

英伟达为了避免成为卖零件的公司,一直努力在发展软件和生态,黄仁勋一直强调英伟达是一家软件公司,并且不遗余力地经营生态。

黄仁勋曾回顾早期如何将行业从CPU迁移到GPU计算平台:当时的大公司在CPU生态上已经投入太大,为旧的平台编写了很多软件,英伟达意识到要将主要的精力放在对初创公司的培养上。为了促成CUDA生态,英伟达在初期编写教科书,与大学合作。

此前,后摩智能创始人吴强在接受芯东西采访时曾表示,在云端训练领域,设计出性能、能效超过英伟达GPU的芯片并非不可能的事,英伟达真正坚不可摧的是由CUDA+GPGPU砌成的生态壁垒。

吴强认为,要替代英伟达,起码要比英伟达的产品性能好5~10倍,1~2倍的改良客户可以就等下一代产品,没必要忍受一个新的、没那么顺手好用的软件。

在CUDA+GPGPU的加持下,英伟达长期统治智能数据中心市场,即使是AMD在进入这个领域时,也得选择和英伟达侧面竞争。

AMD推出的MI200系列,在科学计算常用的FP64(双精度浮点)性能可达Nvidia最新款GPGPU A100的近5倍,而在人工智能常用的FP16精度方面也可达到A100的1.2倍,搭配的内存方面内存大小可达A100的1.6倍,内存带宽也是A100的1.6倍。

与Nvidia全力投入人工智能常用的低精度FP16不同,MI200仍然兼顾了科学计算常用的FP64,这可能也是想在某种程度上与英伟达实现差异化竞争。

随着人工智能热潮,相应的国产创业公司也如雨后春笋般创立,如壁仞科技、登临科技、天数智芯等厂商,但在选择技术路线上,国内创业公司还很难真正绕开英伟达。

如今,随着一道禁令,慌乱中的中国车企以及自动驾驶公司不得不赶紧寻找替代方案,让接下来的城市NoA军备竞赛不受影响。

在车端,中国车企们在选择英伟达Orin的同时,还培养起来了地平线等公司做二供。

在云端,谁将是下一个地平线呢?


赞助本站

相关内容
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港