2023 年 1 月 5 日,毫末第七届 AI DAY 如期而至。经过七届 AI DAY 的沉淀和三年多的成长,毫末智行已经成为智能驾驶领域无法忽视的一员。
截止 2022 年底,搭载毫末 HPilot 车型已经近 20 款,用户辅助驾驶行驶里程已经突破 2500 万公里,这为需要大量数据驱动的高阶智能驾驶提供了肥沃的土壤。
除此之外,自研的 AEB 落地海内外、超 1000 台末端物流车交付、智能驾驶数据智能体系 MANA 学习时长超 42 万小时、城市 NOH (城市领航辅助)开启多城路测等等,作为刚刚成立三年的公司,取得如此成绩的确不易。
在本届 AI DAY 的尾声,毫末公布其接下来的规划,2023 年,毫末将深入改善城市 NOH 的表现,并在 2024 年开启 NOH 百城落地计划,毋庸置疑,这是一个足够激进的高阶智能驾驶工程化落地规划。
所以,我们不妨从本届 AI DAY 的内容中挖掘一下,毫末能够大步快跑背后的原因是什么?
自研 AEB
在聊城市 NOH 之前,先来一道开胃菜。毫末自研的 AEB 算法已经落地海内外,目前已经有魏牌摩卡、拿铁、欧拉好猫、坦克 300 四款车型拿到澳大利亚 A-NCAP 和欧盟 E-NCAP 的五星安全认证。AEB 作为一项主动安全功能,其重要性不言而喻,相比高阶智能驾驶,AEB 更是保护驾驶员和道路参与者的基础功能。
拿刚刚获得 A-NCAP(澳大利亚新车安全评价组织)五星安全成绩的坦克 300 举例,碰撞结果显示,坦克 300 在成人乘员保护、儿童乘员保护、弱势道路使用者保护、安全辅助四个单项中得分率分别为 88%、89%、81%、85%。
毫末自研 AEB 能够取得这样的成绩,离不开毫末在日常开展大量的主动安全真实场景测试,例如在时速 50 - 60 km/h ,对车静态正面碰撞、行人横穿碰撞测试、儿童鬼探头等等,还有大量模拟仿真测试来保障安全。
选择 AEB 自研是典型的「知易行难」的策略。作为安全强相关的 AEB,应该在每一个潜在的碰撞场景发生前实时触发,避免意外的发生。但与此同时,强触发和误触发的边界往往很难把控,一不小心就会矫枉过正,起到反面效果,毫末要将误触发率做到极低才能保证平衡好安全和误报。
想象一下,即便是 1% 的误触发率,在大量车主真实用车环节中也会转换成一个可怕的数字,所以对于 AEB 来说,误触发率要降低至 10 - 15 万公里一次才算合格。所以这也是为什么大多数车企都会选择供应商的黑盒方案,而自研 AEB 的公司少之又少。
不过供应商的黑盒方案几乎无法迭代。反之,自研 AEB 作为白盒方案,具备持续迭代升级的能力外,甚至可以增加激光雷达融合来提升探测效果。
60 分也能及格,但谁不想要 90 分呢?
雪湖绿洲的诞生
实现高阶智能驾驶需要大量的数据驱动已经成为行业共识,毫末之前就提出了关于数据的思想钢印,通过实际车端源源不断的产生数据,将数据处理挖掘进而迭代算法,更好的算法布局在车端,形成闭环。作为商业项目,成本和迭代速度是不可忽视的。
如何实现低成本和快速迭代呢?毫末在 2021 年底公布了自动驾驶数据智能体系 MANA,中文名为「雪湖」。
MANA 以 LUCAS 数据泛化系统为核心,进行数据挖掘和自迭代;通过 TARS 数据数据原型系统上车端核心算法原型,包括感知和认知算法以及仿真等等;基于 BASE 底层系统对数据进行大规模存储、回传等数据服务;VENUS 则是对数据进行统计、分析以及前端展示,通过 LUCAS、TARS、BASE 和 VENUS 四大系统组成了 MANA 系统。
MANA 的数据正在快速累积,2022 年 4 月第五届毫末 AI DAY 上,MANA 的学习时长只有 19.7 万小时,时至今日的第七届毫末 AI DAY 上,MANA 的学习时长已经超过了 42 万小时,虚拟世界驾龄相当于人类驾驶 5.5 万年;而随着车辆不断交付,这个数据还会继续攀升。
大量数据的不断产生衍生出下一个问题,这些数据该如何高效利用?
这次毫末正式公布旗下智算中心 MANA OASIS,中文名为「雪湖绿洲」。
MANA OASIS 也一举成为中国自动驾驶行业最大的智算中心,通过毫末与字节跳动旗下火山引擎联合打造的 MANA OASIS 有三个重要指标参数:
高性能运算:67 亿亿次 / 秒的浮点运算;
高性能储存:2T / 秒的存储带宽;
高性能网络:800G / 秒的通信带宽。
如果没有概念,小鹏在今年 8 月宣布的「扶夜智算中心,算力规模为 60 亿亿次 / 秒的浮点运算。
当然,单纯的算力堆叠并没什么意义,如何让 GPU 持续饱和运行,充分发挥智算中心的价值才是关键。毫末通过两年的时间建立全套面向大规模训练的 Data Engine(数据引擎),将上百 PB 的数据筛选速度提升 10 倍,毫末文件系统中百亿小文件随机读写延迟降低至 500 微秒以下。
算力优化方面,毫末与火山引擎合作,通过部署 Lego 高性能算子库、ByteCCL 通信优化能力、以及大模型训练框架将 MANA OASIS 进行底层优化。
而在训练效率方面,基于 Sparse MoE 降低无效计算,实现单机 8 卡就能训练百亿参数大模型的效果,通过跨机共享 expert 的方法,将百万个 Clips 的训练成本压缩到百卡周级别。同时,毫末的多任务并行训练系统,能同时处理图片、点云、结构化文本等多模态的信息,保证模型稀疏性的同时提升计算效率。
这一切换成通俗易懂的说法,MANA OASIS 将训练效率提升了 100 倍。
在上一届毫末 AI DAY 中,毫末管理层提到最多的就是「数据」,毫末智行 CEO 顾维灏也将自动驾驶 3.0 时代定义为数据驱动的时代,如何高效的用好持续增长的海量数据,并从数据中抽象出高阶智能驾驶算法成为急需解决的问题。
MANA OASIS 应运而生,通过 MANA OASIS 的加持,毫末 MANA 的五大模型全新亮相升级,而这五大模型将奠定毫末在城市 NOH 上的发展路线。
五大模型
五大模型分别是视频自监督大模型、3D 重建大模型、多模态互监督大模型、动态环境大模型和人驾自监督认知大模型。简单从字面意义上理解一下这五大模型,从标注、仿真、多传感器融合、地图和驾驶策略方面成为城市 NOH 迭代方向的基矗
我们可以仔细剖析一下这五大模型,首先是视频自监督大模型,毫末采用的重感知路线,对于这个模型的依赖程度不亚于人对于水的需求。视频自监督大模型让毫末的 4D Clip 标注实现了 100% 的自动化,人工标注成本降低 98%。
先来解释下什么是 4D Clip?
Clip 由一段路程上的传感器数据构成,4D 则意味着 3D 空间 + 时间维度。在大量数据堆叠的时代,算法想要快速迭代,人工标注显然是不现实的,无限扩充标注团队对于成本也是巨大的灾难。
特斯拉也曾在 AI DAY 上分享过自动标注的办法,简单来说,一辆车通过一段路就可以采集一个 Clip,有了 Clip 后,自动标注系统通过本地神经网络的处理,完成各类信息的标注,包括道路信息及道路数据重构、移动物体的运动信息等等,产生最后可用于训练模型的标注,最终通过专业标注人员进行校验,去除噪声或添加一些其他标注,这样数据就标好了。
毫末的视频自监督大模型成为了自动标注的先决条件,首先预训练出一个大模型,用少量人工标注好的 Clip 数据进行微调,训练检测跟踪模型,使模型具备自动标注的能力;将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成 Clip,其中 10% 是标注帧,90% 是未标注帧,再将这些 Clip 输入到模型,完成对 90% 未标注帧的自动标注,进而实现所有单项帧标注向 Clip 标注的自动转化。并且毫末表示视频自监督大模型的泛化性效果极佳,即便是严重遮挡的骑行者,远处的小目标,恶劣天气和光照,都能准确地完成自动标注。
其次是3D 重建大模型,Ta 的作用是模拟大量的 corner case 场景,毕竟在真实世界里 corner case 是小概率事件。当智能驾驶面对 corner case 时就会显得有些「愚蠢」了,所以 3D 重建大模型的目的就是通过 NeRF 技术应用在自动驾驶场景的重建和数据生成中,可以通过改变视角、光照、纹理材质的方法,生成高真实感的数据,实现低成本获取 normal case,再生成各种高成本的 corner case。
相比传统人工建模的方式,3D 重建大模型生成的数据效果更好,成本更低,还可以将感知的错误率降低 30% 以上。未来,毫末将依托 MANA OASIS 将过去的全部场景进行 3D 重建。
这就意味着毫末的智能驾驶系统可以更高效地应对各类不同的极端场景,极大地提高算法迭代的效率。
第三个大模型则是多模态互监督,看名字也应该很好判断出 Ta 的作用。该模型通过引入激光雷达作为视觉监督信号,针对城市中多种异形障碍物进行稳定检测问题。举个例子,城市中会出现三轮车,如果只是一辆三轮车,那么通过大量训练的视觉很容易就可以辨认出来,但如果三轮车上铺满了垃圾或者拉着钢管,视觉就无法有效的辨认的出来这到底是什么东西,毕竟没有学习过。这种场景中激光雷达的特性被发挥出来,识别到前方是一个障碍物就能进行有效避障,提升智能驾驶在城市复杂工况下的通过率。
第四点则是动态环境大模型。其用途是精准预测道路的拓扑关系,让车辆行驶在正确的道路中。这就是毫末轻地图的策略所遇到的难点,如果有高精地图的加持,车辆就相当于开启了透视,知道前方是斑马线、红绿灯、是匝道还是要转弯。
不过高精地图的缺点也无法忽视,想要实现大规模的城市路段驾驶,受限于法规、更新速度、路段维修等等情况,高精地图无法及时更新,也给城市智能驾驶带来阻碍。
所以毫末要想实现大规模的城市落地,势必不能强依赖高精地图,这里的难点是感知系统需要实时推理出原本由高精地图直接输出的道路拓扑结构。毫末选择将 BEV 特征图的基础上,以标精地图(也就是我们常用的导航地图)作为引导信息,通过 Topology Attention 模型生成增强版的 BEV 特征图,再通过 BEV 解码器和自回归编解码器,将 BEV 特征解码为结构化的拓扑点序列,实现对道路拓扑结构的实时推断。
整个实现过程自然要比描述更为复杂,截至目前,在保定和北京两大城市,毫末智能驾驶系统在 85% 的路口实现了高达 95% 的拓扑结构推理准确率,即便是复杂路口或不规则路口,毫末也能进行预测。
像图中所示,该路口由 5 条道路汇合。而多路口交叉下的感知和规控是城市智能驾驶场景下最重要的难题之一,类似场景的攻克为大规模的城市落地打下了基础,为大规模城市落地提供基矗
最后是人驾自监督认知大模型,上述感知和地图问题解决之后,复杂的驾驶决策该如何解决呢?毫末将用户真实的接管数据引入,同时用 RLHF (人类反馈)思路先训练一个 Reward Model (奖励模型)来挑选出更好的驾驶决策,RM 模型也可称之为偏好模型。
我自己的理解是,在环岛场景下,10 个人中 8 个人是选择差不多的路线行驶,那么系统也会选择相似的驾驶决策,通过源源不断的人类行为反馈来深化该模型的表现,最终形成最优解。RLHF 也是近期爆火的对话神经网络模型 chatGPT 中运用的思路。
通过这种方式,可以让毫末的智能驾驶系统在掉头、环岛等等困难场景中,通过率提升 30% 以上。
MANA 全新的五大模型全方位的提升了毫末在感知和规划的底层能力,通过大量数据喂养,不断加强毫末对于城市 NOH 落地的进程。同时,不难看出推出全新的五大模型在降本和增效两方面依然是第一优先级。
写在最后
从这届毫末 AI DAY 中,不难发现毫末对于城市高阶智能驾驶的决心。从整个行业来看,头部玩家已经开始进行泛化性的训练,不再拘泥于高速、高架等有高精地图覆盖的结构化道路,而是向更加广泛的城市非结构化场景推进。
毫末的重感知 + 轻地图配合上渐进式发展的策略优势逐渐显现。毫末将自身技术迭代方向和现阶段状况全盘托出,以更加「透明」的方式站出来,更加「有理有据」的给出了一个时间节点:
2023 年提高对于城市 NOH 特殊工况的处理,免学习的长距离泊车;
2024 年城市 NOH 开启更大规模落地;
2024 下半年开始更大规模的开放全场景 NOH。
毫末作为高阶智能驾驶的头部玩家,在 2023 年率先打响第一枪,将这场城市之战拉入白热化阶段。