自动驾驶的发展不仅仅是一个技术命题,同样也是一个商业命题。从技术竞争为主导的上半场,到以商业化落地为主导的下半场,自动驾驶技术的发展和应用需要紧密结合市场需求,企业需要探索可行的商业模式,以实现技术的规模化和产业化落地。
“实现完全自动驾驶之路如同一场马拉松长跑”,Mobileye创始人、总裁兼首席执行官Amnon Shashua教授在日前公司Driving AI Day活动的演讲中提到,“这不仅考验着企业的技术创新和产品开发能力,还考验着企业的持续经营和盈利能力。”
他提到,在Mobileye过去多年的支出中,每年仅用于研发自动驾驶的投入就高达6亿美元左右。在这场长跑中,企业不能仅仅依赖外部资金的注入,更重要的是要找到合适的盈利模式,以保障业务的长期可持续发展。
Mobileye创始人、总裁兼首席执行官Amnon Shashua教授和首席技术官Shai Shalev-Shwartz教授
而对于Mobileye要如何实现完全自动驾驶的规模化战略,Amnon教授也给出了清晰的回答复合人工智能系统(CAIS)。
什么是复合人工智能系统?
复合人工智能系统(Compound AI Systems)最早是2024年初加州大学伯克利分校的AI研究实验室网站上的一篇题为《从模型到复合人工智能系统的转变》的博客文章中提出的。文章指出,最先进的人工智能成果越来越多地产出于复杂的多组件复合系统,而非单一大模型。 与传统的仅依赖单一人工智能模型的系统不同,复合人工智能系统强调多种工具和模块的集成和共同协作,以高效处理人工智能任务。 这种集成方法提供了灵活性和适应性,允许系统根据不同的输入和任务进行调整。此外,复合系统通过不同组件实现冗余,确保系统的稳定性。复合人工智能系统也更加可解释和透明,因为可以追踪每个组件对最终输出的贡献。 Mobileye以摄像头为中心的复合人工智能系统
所谓“以摄像头为中心”,不同于“仅依赖摄像头”,意味着同时对更多类型传感器的采用也持开放态度。例如,Mobileye内部在开发成像雷达,还在“可脱眼”系统中集成了一个前向激光雷达。摄像头和雷达的成本都相对较低,“可脱眼”系统配置的一个前向激光雷达的成本也很低,只需几百美元。 所谓“复合”,是指一方面Mobileye积极采用前沿的AI技术,例如深度学习、端到端,同时也发挥自己在视觉算法方面的传统优势,充分利用各种技术的优势,达到安全性和效率的最大化。 Amnon Shashua教授从四大维度深入审视了包括Mobileye自身“以摄像头为中心的复合人工智能系统”在内的当前主流智驾方案技术路线,这些也是Mobileye为实现自动驾驶下半场商业落地可行性的重要考量维度。 ●维度一:成本。在智驾的竞争中,成本是关键要素。高昂的研发和生产成本会直接影响到自动驾驶技术的普及速度和范围。成本是将Mobileye的技术路线与以激光雷达为中心的,配置大量昂贵传感设备的技术方案在未来商业落地可行性层面拉开差距的主要因素。 ●维度二:模块化。Mobileye的复合人工智能系统在模块化设计方面表现出色,这与Mobileye的经营理念紧密相连 公司的产品组合涵盖了从辅助驾驶到无人驾驶出租车(Robotaxi)的各个类别。而模块化意味着可以提取系统中的某些模块,并基于此打造成本更低的智驾或辅助驾驶系统,或者增加额外的冗余传感器,以较小的投资实现向更高级别自动化的逐步过渡。通过模块化,将能够更好地适应未来技术更新和市场需求的变化。 ●维度三:地域可扩展性。地域可扩展性是指方案扩展到其它地域的难易程度。这一点对于全球化或致力于拓展全球化布局的汽车制造商尤为重要。 ●维度四:平均故障间隔时间(MTBF)。MTBF即平均行驶多久需要进行一次关键性的干预,是衡量系统可靠性的重要指标。相较于基于概率做出推断式决策、不具有可解释性的端到端技术路线,Mobileye通过严谨的数学计算,能够得出复合人工智能系统的误差水平,为实现可脱眼系统所需的MTBF(Mean time between failures,平均无故障工作时间)开辟一条更为现实且可靠的路径。 端到端热话题也需冷思考
在Mobileye的复合人工智能系统中,端到端是重要的组成部分之一。 Mobileye很早就看到了端到端的潜力,在其大规模流行之前,就开始研究其在智驾领域的应用,也有积极采用端到端。早在2016年,Mobileye创始人、总裁兼首席执行官Amnon Shashua教授和Mobileye首席技术官Shai Shalev-Shwartz教授就发表了一篇阐释端到端系统的论文。 但Mobileye认为,端到端应作为智驾子系统之一提供冗余,而仅依靠端到端则会出现问题。
端到端方案的两个前提及对应的现实情况 ●先来看端到端的两个前提: ◎第一个前提:系统内部不存在任何粘合代码,而是由一个“黑箱”操作的神经网络构成。该神经网络的输入端接收来自摄像头的传感信息,输出端则提供汽车的行驶方向和轨迹,最终输出的是行动决策。系统本身仅作为一个数据通道。随着越来越多的数据被添加,神经网络通过观察人类驾驶员的行为来学习驾驶技巧。同时,有数以百万计的汽车在不断地发送行驶数据。由于不存在粘合代码,随着时间的推移和数据量的增加,系统可以使用更多的数据进行训练,最终达到一个奇点水平,即达到或超越人类驾驶员的能力。◎但现实是:尽管号称无粘合代码,实际上粘合代码是确实存在的,只是以离线方式存在于系统中。在机器学习领域,尤其是在使用Transformer架构时,系统的任务是估算概率,即基于输入数据预测行驶轨迹的可能性。这种预测更多地关注可能性的大小,而非预测结果的正确性。因此,神经网络并不真正了解如何区分“罕见但正确”与“常见但错误”之间的区别。只根据统计,系统会更偏向于选择“常见但错误”的行为。 因为端到端系统只是估算概率,所以这种情况本质上就无法避免。而我们当然不希望自动驾驶汽车做出违反交规的行为。 为了解决这一问题,需要在语言模型中引入基于人类反馈的强化学习(RLHF)。对于端到端系统,就是在离线环境中,通过筛查和过滤机制,识别并剔除不良的人类驾驶行为,例如粗暴驾驶、鲁莽驾驶等。这一过程需要大量的工程技术和粘合代码的支持,但这些工作都在离线环境中完成,而不是在线实时进行。 因此,粘合代码并没有消失,而是从在线转移到了离线环境。这就是所谓的“自动驾驶对齐”问题,即需要区分哪些行为是正确的,哪些是错误的。 ◎第二个前提:训练数据均为无监督数据,这意味着仅包含原始图像,没有人对图像中的数据进行过标注。因此,系统必须能够仅依赖无监督数据来实现足够的平均故障间隔时间。 ◎但现实是,仅靠无监督数据进行训练,端到端方案的准确率能从0很快地推进到95%,但其所需的巨大成本、数据量和工程量也不容忽视。以现在的大语言模型和transformer为例,在从095%的阶段,能够实现相当大的飞跃,但无法达到100%准确,有时候会犯一些匪夷所思的错误。 对于事关安全的智驾,试错空间极小,95%的安全性是远远不够的。而仅依赖端到端,要想达到99.999999%的安全性是相当难的。 仅靠未经标注的无监督数据进行训练,会带来诸多问题,例如: ●计算器问题:系统无法学会“长乘法”,因为系统所看到的只是许多数对相乘的示例,从这些示例中不足以抽象出长乘法的概念。因此在大语言模型中,不使用模型本身来输出结果,而是通过将问题转化为Python代码,由Python代码直接调用计算器,才能解决这一问题。“计算器”的角色,就是智驾系统为端到端注入的“抽象概念”的角色,即将具体的事物或行为抽象化,形成一般性的原则或规则。 ●捷径学习问题:“端到端方法”就是将所有传感器的数据输入到一个大型神经网络,然后对其进行训练。而输入的信息中,因为有些信息的样本复杂度低,意味着你需要少量的数据便可以学习到模式,而有的则相反。例如,激光雷达就是一种低样本复杂度的信息源,它是精确的三维传感器,因此要进行泛化,所需的数据量要远远少于摄像头。而摄像头则是高样本复杂度的信息源。 当输入来自不同的模态时,样本复杂度不同。而端到端随机梯度下降很难充分利用所有模态的优势,误差达到一定程度后就很难再下降。 严格意义上倒也不是说做不到,但所需要的时间之长,完全不切实际。这就是“捷径学习问题”。 ●长尾问题:对于长尾问题有两种假设,在乐观的情况下,有些事件的概率相对较大,而有些则非常小,覆盖一些边缘事件就可以大幅度地减少总体概率质量(probability mass)。这意味着少数关键的边缘事件可以显著提升系统性能,进而实现更高的平均故障间隔时间;在悲观的情况下,所有罕见的长尾问题其实概率都一样非常小,每个边缘事件对概率质量的影响非常小。这意味着即使处理了很多边缘事件,系统的故障率仍然不会有显著改善。覆盖所有这些边缘情况需要很长一段时间,长到不切实际。 总体而言,端到端学习模型的优势是显著的。然而,如果仅依赖无监督数据,不引入抽象概念,不考虑长尾问题,而只是单纯地向系统提供更多数据,那么是否能够实现平均故障间隔时间的目标确实是一个值得探讨的问题。