作者|于宗申
编辑|白雪
自动驾驶是一场横跨百年的技术修行。
1925 年,一辆无人汽车(American Wonder)缓缓行驶在曼哈顿街头,从百老汇一直开到第五大道,它穿越了纽约交通最拥堵的路段,吸引了全美国的注意。
背后的牵头人 Francis P.Houdina(弗朗西斯.P. 霍迪尼),当时他正坐在另一辆车上,用无线电遥控无人车的行驶。
American Wonder
以现在的技术来看,这辆车远称不上自动驾驶,只能算得上是遥控汽车。但人类对于无人驾驶的场景化想象却从此开始。
由此,在人类的科学技术进程中多了汽车自动驾驶的目标。
百年自动驾驶大致分五个阶段:
1925 年到 1966 年,是概念启蒙阶段。少量工程师通过电缆、金属传感器和磁场感应器的组合,让小说中的「无人驾驶」短暂地照进了现实。
1966 年到 2004 年,是技术奠基阶段。在各国军方的主导下,少量大学和车企确立了自动驾驶的基础技术路线,将计算机算法与传感器硬件(摄像头为主)相结合。
当概念和技术奠基工作均完成后,自动驾驶突飞猛进。
2004 年到 2014 年,是属于谷歌的「哥伦布时代」,让世界看到了自动驾驶商业落地的可能。
2014 到 2021 年,是万众创新的「大航海时代」,无数企业在资本和技术簇拥下涌入自动驾驶市场,探索无限可能。
2021 年至今,是特斯拉引领的「工业革命时代」,AI 大模型开始逐渐取代人工编写的规则算法。
1.0 时代,谷歌成为哥伦布
地球是圆的,总会有人想去证明它。
在自动驾驶领域,谷歌是那个率先抵达新大陆的「哥伦布」。
2004 年,为了减少战争中的人员伤亡,现实版神盾局 DARPA(美国国防高级研究计划局)在 2004 年、2005 年及 2007 年举办了 3 届自动驾驶挑战赛,吸引了无数大学和企业的研究团队。
三届挑战赛让谷歌联合创始人拉里佩奇(Larry Page)看到了自动驾驶的潜力,将斯坦福大学领队塞巴斯蒂安特龙(Sebastian Thrun)纳入麾下,带领谷歌 X 实验室研发创新项目。
特龙
2009 年初,在佩奇的推动下,谷歌自动驾驶项目「Project Chauffeur」正式启动。
作为项目负责人,特龙邀请了一些 DARPA 挑战赛中的技术大牛加入了 Chauffeur 项目:
卡内基梅隆大学车队的技术总监克里斯厄姆森(Chris Urmson)负责软件,斯坦福大学车队的软件负责人迈克蒙特莫罗(Mike Montemerlo)负责电子地图、硬件负责人安东尼莱万多夫斯基(Anthony Levandowski)负责硬件、感知负责人亨德里克达尔坎普(Hendrik Dahlkamp)负责雷达数据。
三届 DARPA 挑战赛积攒的人才,几乎尽数收入谷歌麾下,并在技术上延续了 DARPA 挑战赛提出的基本方案,即计算机通过多个传感器来观察周围环境,并据此进行路线规划,最后由一套线控系统执行命令。
莱万多夫斯基(左)、特龙(中)、厄姆森(右)和谷歌首款自动驾驶汽车
和挑战赛以前的自动驾驶车辆相比,此时谷歌自动驾驶车辆最显著的变化,是搭载了激光雷达和高精地图激光雷达可以精确测算车辆和道路标志的距离,而高精地图则告诉车辆这些标志在空间中的位置,从而让车辆进行定位,降低了感知系统的压力,以此应对复杂的道路。
在州际公路上经过了 16 万千米的测试和反复修改代码之后,Chauffeur 团队于 2010 年 10 月完成了 Larry 1k 挑战,即在没有人为干预的情况下,在10 条160 千米的特定路线上(州际公路+城市道路)完成无人驾驶。
比起 DARPA 挑战赛中的车辆,谷歌 Chauffeur 团队在技术上已经有了质的突破,但距离工程化落地依旧遥远。
首先,谷歌的自动驾驶离不开高精地图,而保证高精地图的鲜度和广度需要巨量时间与财力投入。
其次,识别和预测道路上其他交通参与者的行为依旧不是一件容易的事,毕竟不是每一位司机在变道之前都会打转向灯。
最后,《纽约时报》的报道将谷歌自动驾驶项目公之于众,但推动立法依旧路途遥远。
2011 年初,特龙曾经的学生戴夫弗格森加入了 Chauffeur 团队,正式将机器学习引入了自动驾驶,提升了汽车的感知能力和判断能力。
与此同时,谷歌也开始游说政府部门立法,2011 年 9 月,内华达州通过自动驾驶法案;
2012 年 5 月,谷歌拿到了内华达州颁发的第一张自动驾驶测试牌照;
2013 年,NHTSA(美国高速公路安全管理局)发布了自动驾驶汽车的分级标准,SAE(国际自动机工程师学会)也制定了自动驾驶汽车分级标准。
至于高精地图的问题,谷歌的解决对策是在有限的「运行设计域」内使用,比如路况简单的高速场景。
不过在具体的落地形式上,特龙的左膀右臂莱万多夫斯基和厄姆森产生了路线分歧。
莱万多夫斯基提倡销售后装方案,可以让任何汽车在高速公路上实现自动驾驶。厄姆森则希望将自动驾驶系统在生产时便集成到车辆当中,虽然耗时更久但更加安全可靠。
然而不论是哪种方案,都被老牌车企认为是鲁莽、愚蠢到不可思议的事情。
天无绝人之路,打车软件 Uber 的出现,让谷歌高层看到了一条新的商业化路线在特定城市或地区绘制高精地图,然后运营一支无人驾驶出租车队。
于是,谷歌在 2014 年 5 月推出了纯电动全自动驾驶汽车 Firefly,配备了摄像头、毫米波雷达、激光雷达和超声波等传感器,以及整合了 Google 地图和云服务等优势资源,同时还取消了方向盘、油门和踏板。
谷歌 Firefly
Firefly 的发布终于让车企意识到自动驾驶的重要性。
Firefly 发布的次日,时任通用全球产品开发主管的 Mark Reuss 便首次将谷歌列为竞争对手:
「对汽车制造商们来说,谷歌可能会变成一个相当厉害的竞争对手。」
从 2004 年关注 DARPA 自动驾驶挑战赛,再到 2014 年让世界见证自动驾驶,谷歌从军方手中接过了自动驾驶的主导权,汇集了 DARPA 挑战赛中的人才,成为开启新大陆的哥伦布。
2.0 时代,大航海时代的始终
资本市场是逐利的。
在看到自动驾驶的潜力之后,车企、科技公司以及初创企业纷纷卷入了自动驾驶的蓝海市常
回看 2014 年这个时间点,谷歌已经做成了三件影响行业的大事:
首先,谷歌推动了美国自动驾驶法案的出台,让行业有法可依;
其次,谷歌摸索出了相对成熟的技术路线,让行业有迹可循;
最后,谷歌的 Firefly 让资本看到了自动驾驶的潜力,让行业有钱可烧。
接下来的两年,谷歌又为行业贡献了最重要的资源人才。
2014 年,谷歌 Chauffeur 项目负责人特龙离开了谷歌,创立了在线教育平台 Udacity,致力于为业界培养更多自动驾驶人才。
特龙走后,莱万多夫斯基和厄姆森的明争暗斗日益升级。2015 年 8 月,谷歌进行业务重组改变了权力架构,自动驾驶项目由技术主导转向商业化主导。
多重变动之下,谷歌 Chauffeur 项目多位核心工程师在拿了 2015 年年底的巨额奖金之后离职创业:
厄姆森离职创立了 Aurora,2021 年 Aurora 上市,市值125 亿美元。
莱万多夫斯基和 Google 地图负责人里奥罗恩(Lior Ron)创立了 Otto,后被 Uber 收购,并入 Uber 自动驾驶部门。
硬件研发主管布莱恩萨莱斯基(Bryan Salesky)离职创立了 Argo,3 个月后便被福特以 10 亿美元收购。
机器视觉技术专家达夫弗格森(Dave Ferguson)和朱佳俊离职创立了 Nuro,专注于无人驾驶配送业务,估值最高达到86 亿美元。
在谷歌的刺激之下,从 Uber、英伟达、亚马逊、百度、大疆、滴滴出行、华为等高科技公司,再到奔驰、宝马、通用、本田等传统车企,以及蔚小理为代表的中国车企,纷纷投入自动驾驶研发。
与此同时,资本也进入了自动驾驶行业。2013 年时,全球自动驾驶行业融资数量仅 5 起,2014 年快速增长至 20 起,到了 2018 年便超过100 起。
资本入局之下,催生出了无数初创企业,比如被誉为自动驾驶黄埔军校的百度,从这里走出的自动驾驶工程师,而后又缔造了一批优秀的中国自动驾驶初创公司,如小马智行和文行知远,百度系之外,还有轻舟智行、图森未来、Nullmax 等。
自动驾驶从谷歌一人独舞,逐渐变成了派系林立的江湖。
有江湖的地方,自然就有纷争。
「大航海时代」最重要的分歧,来自于渐进式和跨越式的路线之争。
特斯拉和谷歌,分别是渐进式路线和跨越式路线的支持者。戏剧性的是,两者的纷争来自于一次失败的合作。
2013 年,谷歌虽然已经定下了做无人出租车的目标,但也尝试了更容易落地的 L2 级 AutoPilot。
然而测试时,谷歌发现不论如何强调该系统无法完全替代人类,测试车辆的工程师总会把汽车当成完全自动驾驶来使用。
安全起见,该项目只测试了几个礼拜便被紧急叫停,谷歌打算只做「完全不需要人类参与」的自动驾驶,也就是走跨越式路线。
而被谷歌叫停的 AutoPilot 项目,原本是为特斯拉开发的智驾项目。
与谷歌合作的破裂之后,特斯拉兜兜转转开始了自研 AutoPilot,并选择了与谷歌截然相反的道路渐进式路线。
在渐进式路线看来,碍于技术的限制,短期内 L4 级自动驾驶必然成本高昂且无法落地,那不如从更容易商业化的做起,先养活自己,再不断进步。
渐进式路线内部也分为了两大类。
第一类是特斯拉、Mobileye、华为、大疆、Nullmax 和大多数主机厂代表的L2 级辅助驾驶,核心思想是用辅助驾驶撬动销量,从而获得数据和造血能力,继而不断升级迭代。
第二类是特殊场景下的L4 级自动驾驶,如易控智驾、主线、白犀牛等,主攻矿区、港口、配送、环卫等低速封闭或低速半封闭场景,通过限制速度或者运行场景的复杂度来降低自动驾驶的难度,保证盈利的同时迭代 L4 级智驾系统的能力。
然而在以谷歌 Waymo、百度 Apollo(及其历任工程师创建的公司)为代表的跨越式路线支持者看来,渐进式路线无疑是死路一条。
在他们看来,低等级自动驾驶的技术框架难以直接迁移到 L4 级无人驾驶,用厄姆森的话说,就是「渐进式就像是一个天天努力练跳高的人,认为自己终有一天能飞起来」,如果你想登月,那一开始就不应该造梯子,而是火箭。
然而就和现实中的大航海一样,始于哥伦布发现新大陆,终于海外殖民地被瓜分殆荆
在听了多年无人驾驶的故事之后,资本市场发现了 L4 级快速落地遥遥无期的事实,耐心和投入也开始逐渐消失。
这对靠资本市场输血的 L4 级自动驾驶公司来说,称得上是灭顶之灾。
为求自保,不少 L4 级公司不得不向现实低头,从 L4 级跨越式路线转向 L2 级渐进式路线,先造血求生存,再烧钱追理想。
目前除了谷歌 Waymo、通用 Cruise、滴滴自动驾驶以外,大多数 L4 级自动驾驶公司均投入了 L2 级自动驾驶的怀抱。
轰轰烈烈的智驾大航海时代,随着跨越式路线的失败而告终,渐进式路线成为市场主流。
不过大航海时代虽然结束了,但是却留下了宝贵的遗产激光雷达、高精地图、自动驾驶芯片等行业获得了快速发展,为留在场上的玩家提供了价低质优的解决方案。
3.0 时代,特斯拉引领「新工业革命」
如果只是渐进式路线耗死了跨越式路线,那绝对称不上是新时代的开始,顶多只能称为「后航海时代」,无非是面包战胜了爱情,六便士打败了月亮。
真正结束旧时代开启新时代的,是特斯拉发起的「新工业革命」用自动化程度更高的大模型取代了「手工作坊」里的人工规则代码。
虽然早在 2011 年,谷歌便将机器学习引入了自动驾驶,但在长达 10 年的时间里,自动驾驶依旧以人工规则为主导。
即使是火热的大航海时代,大多数自动驾驶企业也都选择了大同小异的硬件方案,差距主要来自人工规则代码。
然而遵循规则代码的智能汽车永远无法学会开车,人工编写的规则代码无论如何都无法覆盖现实世界所有的路况。
改变这一现状的技术,是谷歌提出来的Transformer 架构通过引入注意力机制,Transformer 模型拥有了联系上下文的能力,并且训练速度更快。
2017 年,谷歌发布了 Transformer 架构,成为自然语言处理领域的主流大模型。
2020 年,谷歌又提出了 Vision Transformer(ViT),可以直接利用 Transformer 对图像进行分类。
然而最先将 Transformer 架构用到自动驾驶上的,却不是谷歌的 Waymo,而是特斯拉。
2021 年 9 月,在安德烈卡尔帕西(Andrej Karpathy)的带领下,特斯拉重构了自动驾驶的代码,推出了基于Transformer+BEV技术的 FSD,将感知部分交给了大模型,从而提升了自动驾驶的感知能力。
安德烈(左)和马斯克(右)
2023 年,在达瓦尔史洛夫(Dhaval Shroff)的推动下,特斯拉推出了 FSD V12 版本,将感知、决策和控制算法都交给了大模型,实现了首个端到端大模型自动驾驶,人工规则算法从 V11 版本的 30 万行降低到了2000 行。
马斯克(左一)和达瓦尔史洛夫(左三)
大模型的上车,从技术层面证明了渐进式路线的胜利通过投喂数据,大模型能不断精进驾驶技术,从 L2 进化至 L4 成为可能。
在特斯拉引领之下,诸多玩家开始推进大模型上车,其中最为积极的当属中国企业。
车企方面,小鹏、蔚来、理想、极越、比亚迪、智己等车企纷纷推动了 Transformer+BEV 架构的研发。
自动驾驶解决方案方面,华为、百度 Apollo、大疆车载、毫末智行、小马智行、商汤科技、Nullmax、Momenta、易航智能等供应商也积极跟进。
虽然以上企业主要在感知端使用了大模型,还未能和特斯拉一样实现端到端的大模型,但是依旧大幅提高了智驾系统的感知能力,一定程度上降低了硬件成本,并让自动驾驶有了摆脱高精地图的可能。
也正因如此,2023 年中国车企发起了轰轰烈烈的智驾开城计划,「城市 NOA」和「无图智驾」成为汽车行业的关键词,自动驾驶的渗透率也迎来增长。
当 2024 年农历新年的返乡大军用自动驾驶开车回到县城、乡村,似乎预示着自动驾驶已从彼岸到达此岸。
精进仍在继续。大模型提高自动驾驶能力上限的同时,也拔高了自动驾驶的门槛。
在软件驱动的时代,规则算法决定了自动驾驶的能力上限。因此很多初创公司通过少量的测试车不断迭代算法,便能提升自动驾驶的能力。
毫末智行 CEO 顾维灏就认为自动驾驶已经从硬件驱动、软件驱动进入到了数据驱动的新时代。
在新时代里,自动驾驶系统更有可能达到人类驾驶员水平。系统不但具备对三维空间的精确感知测量能力,而且能够像人类一样理解万物之间的联系、逻辑、常识,做出更好的驾驶策略。
而这一切正需要算力与数据。
算力相当于大模型的智力,数据相当于大模型刷的题库,智力越高,刷的题越多,考试成绩才会越高,二者缺一不可。
和算法相比,算力和数据的硬件成本显然更高。
无论是自动驾驶企业还是车企,现在都把重点放在了打通数据通道和智算中心以此更高效地获取数据。
比如毫末智行的自动驾驶生成式大模型 DriveGPT(雪湖海若)参数规模达到1200 亿,预训练阶段引入数千万公里量产车驾驶数据。
特斯拉更为夸张,为了打造训练大模型的超算中心,特斯拉至少投入25 亿人民币购买了 10000 块 H100 芯片,同时,特斯拉还将投入10 亿美元搭建自研的 Dojo 超算中心。
在数据量上,FSD V12 版本训练初期,特斯拉便投喂了约 1000 万个特斯拉车主的驾驶视频片段。
海量驾驶数据,是由特斯拉 400 多万的总销量累积而成,这使得特斯拉每天可以访问来自车主的 1600 亿帧视频。
第二个特斯拉还没有出现。庞大的资金投入和数据需求,成了横亘在自动驾驶面前两座大山,没有体量支撑、造血能力,部分自动驾驶公司难以继续留在牌桌,只得「排队卖身」寻求收购。
现在的情况是谁掌握了资金和数据,谁就掌握了话语权,而自动驾驶的主导权或将回到车企手中。
自动驾驶百年,只是开始
从 1925 年算起,自动驾驶的发展已接近百年,技术路线日益成熟。
在自动驾驶的第一个百年中,最重要的经验,便是自动驾驶是强依赖技术路径变革的物种。
回头看,自动驾驶关键节点变迁均是新技术加入引发的:
1966 年,计算机和摄像头的加入开启了现代意义上的自动驾驶;
2007 年,DARPA 挑战赛中引入了高精地图和激光雷达;
2011 年,机器学习首次被用于自动驾驶;
2021 年,大模型开始上车;
2023 年,端到端的大模型成功上车。
这个规律一定程度上注定了跨越式路线的败局渐进式路线迭代升级的欲望更强,因此更容易接纳新技术。
这或许也是谷歌提出的 Transformer 架构却被特斯拉先用到自动驾驶上的原因。
但无论哪种路线,都面临同一个问题,一旦发生较大的技术变动,此前的软硬件架构都要随之改变。
另一个规律,自动驾驶发展的过程就是不断用机器取代人的过程。
以此来看,端到端自动驾驶在车端几乎完全实现了用机器替代人类,因此会成为中期甚至长期的技术路线。
和其他跟进的车企相比,特斯拉目前在算法层面有 2-3 年的领先优势。3-5 年之后,目前第二梯队的车企大概率也将实现端到端自动驾驶。
算法的代际差距被拉平之后,能继续用计算机替代人类提高效率的,或许就是数据了。
目前特斯拉的训练数据主要来自现实世界,虽然数量庞大覆盖场景足够多,但是重复、无效的内容同样多,而且难以针对性的训练。
与之相比,生成式 AI 能快速且低成本的生成针对性的场景,通过仿真训练加快自动驾驶的迭代速度和能力,从而降本增效,这也是目前特斯拉研究生成式的 World Model 的原因。
自动驾驶的技术已经日益成熟,但是从商业角度来看,技术只是开始,接下来还有漫长的产品普及之路要走,自动驾驶是一场持久战。