本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数字先行者”共同探讨、碰撞,希望这些内容能让你有所启发。
1913年,福特汽车在美国Highland Park整车厂中引入第一条流水线,汽车由此开始进入千家万户。
经过百年发展,如今的汽车工业已经成为现代工业的集大成者,而随着能源、材料、工业技术不断进步,汽车产业门槛越来越低,市场竞争不断加剧,尤其在汽车产业进入电动化后,新篇章随之开启。
吉利控股集团董事长李书福曾指出,电动化只是全球汽车产业变革的序幕,以智能化为赛点的下半场角逐已经来临。
自动驾驶是汽车产业智能化发展的典型场景,自动驾驶水平每提升一个级别,车载算力需求将提升一个数量级,而训练研发所需算力则要提升两个数量级。因此,自动驾驶需要海量的数据来做数据标注、大模型训练、仿真验证等工作。智能云计算时代,随时可调用的大规模智能算力,才真正展开了一场汽车自动驾驶与在线时代的伟大会师。
实际上,吉利早在2018年就开始探索智能计算在汽车领域的应用,作为吉利迈向智能化的关键基础设施,吉利星睿智算中心也在此背景下悄然酝酿。
2023年2月27日,吉利星睿智算中心在湖州长兴正式揭牌,这一算力高达81亿亿次/秒的智算中心的建成,让吉利整体研发效能实现了20%的提升,使吉利真正迈入了造车的“智算时代”。
智算之路,困难重重
数据驱动是自动驾驶发展的公认方向,也让自动驾驶模型训练成为一头“吃算力”的巨兽。自动驾驶的视觉检测、轨迹预测与行车规划等算法模型,依赖于机器学习海量数据集,但算力的不足让研发速度远远赶不上数据量增长的速度。
随着传感器的进一步增加,海量增加的数据对于算力的要求也越来越大。吉利逐渐意识到,他们需要一个强大的本地+云端的算力来支持。
时间回到2021年10月31日,“智能吉利2025”战略发布会在宁波召开,这场面向全球的战略发布会拉开了吉利全面拥抱智能化的序幕,也是在这场发布会上,吉利提出了一个小目标:到2025年,实现自动驾驶技术全栈自研,实现L4级自动驾驶技术商业化,并完全掌握L5级自动驾驶技术。
为了保障这一战略目标顺利实现,这场发布会前的一个月,吉利就已经在筹建建立设备规模、综合算力、业务覆盖领域、智能化支撑能力都极具规模的智算中心,承载着吉利重大历史使命的星睿智算中心项目由此开始。
星睿智算中心需要支撑的研发生产业务需求复杂又庞大,涉及的技术点众多,在项目筹划前期,吉利从设计、生产、销售、售后全流程进行了为期3个月的内部调研,就产品研发侧、量产侧、制造侧、试验侧、运营侧、用户体验侧中的上千个研发运营场景的智能化支撑需求进行了深度剖析,初步梳理下来,仅仅是研发侧就涉及超过2000项技术点。
经过3个月的努力,在输出近百份分析评估材料的同时,项目初期的基本思想纲领和资源储备得以搭建起来。在吉利看来,与以往的信息化建设相比,能在3个月内完成如此规模的项目决策,是从未有过的。
不过,除了项目规模大、复杂度高等难题外,建设过程中涉及的尖端设备和IT基础设施也是前所未有的,实施环境和精细化要求远高于以往项目。作为吉利第一个具备亿亿级计算能力的智算中心,完全没有历史经验可供参考。
因此,吉利携手阿里云,基于阿里云大数据、AI等能力为智算中心提供了定制化的阿里云技术方案,凭借阿里云在计算、存储、网络、安全合规方面的技术沉淀,提高智算中心的算力使用效率,降低算力成本,全面提升汽车智能化服务和人机交互体验。
阿里云在过去十几年里已经过全球市场验证,基础设施产品成熟稳定有口皆碑。此前吉利不少业务板块与阿里巴巴已有多年合作。
对于阿里云而言,这同样也是不小的挑战。尽管非常清楚要建设什么、要达成什么样的目的,但项目涉及的仍然是一套全新的技术体系,部分能力甚至要边验证边落地,对于无法解决的问题,双方还需要及时做出调整,需要引入更多伙伴能力进行弥补。
全面上云,流程再造
汽车研发是一个复杂的系统工程,一款新车的研发往往涉及数百人的研发团队,经历可行性分析、产品定义、工程设计、设计验证、生产验证等众多环节,走完这个流程往往需要2至3年的时间。
作为一家有着深厚技术底蕴的全球500强车企,吉利传统的研发运营模式是基于项目单元独立研发、采用分段独立交付模式进行,这一模式的优势是,质量责任明确,各阶段交付成果清晰。
但多年来在汽车行业从数字化到智能化的经验,让吉利已经意识到要将汽车设计研发、生产制造、销售运营各环节云化、数字化,通过数据驱动提升业务标准化和业务能效。
伴随越来越多的产品智能化需求,没有一套能够实现全业务流程数据闭环的技术体系,研发和运营效能往往得不到保证,分段独立交付的业务模式的局限性也越来越明显。
星睿智算中心的建设,一定是要对吉利产品研发、运营业务的创新与改革,打破常规,以最快的能效达成产品业务目标。要对业务流和数据流进行重构,就需要底层基础平台的支撑和保障。
“如果我们建一套智能化、数字化研发及量产基础体系,仅仅考虑上云,没有在智能化效率、大数据协同研发和量产落地,尤其算法模型、数据处理能力上有所突破,其实是没有太大意义的。”吉利星睿中心负责人老谢表示。
以智能驾驶为例,智能驾驶技术研发过程中存在大量非结构化数据,如果采用传统的数据同步方式,不仅同步时效性低,算力损耗还大。千卡以上规模算力输出效率最低只有40%,这在一定程度上抬高了智算体系建设成本,制约了整个产业的发展。
通过飞天云计算操作系统对计算、存储、网络、安全等技术的优化,利用阿里云大数据体系、人工智能研发体系构建的智能化和数字化统一研发平台,并对底层资源的统一高效调度,降低传输过程中数据体量,减小算力损耗,提升同步效率。
在提供基础的IT平台的同时,阿里云还针对吉利的目标需求进行了底层产品调整,由于涉及诸多自身标准化体系中没有的能力,阿里云还需要在极短的项目周期内实现定制开发和部署。
汽车生产是一个对可靠性、异构支撑等要求很高的场景,项目建设周期又很短,在平台部署完成后,已经没有足够的时间开展测试工作,因而阿里云定制快速开发的部分产品,就需要在产品上线后,继续通过场景驱动产品进一步完善。
阿里云智能汽车&制造行业总经理李强评价:“星睿智算中心是一个真正意义上‘云、数、智’一体的云计算平台体系,突破了以往智算中心只关注硬件规模的误区,这对于后续研发效率的提升、智能应用场景的开发会带来实打实的帮助,也为吉利拉开技术代际优势打下坚实基矗”
双重提效:数据管理与AI应用
事实上,除了底层云基础平台之外,星睿智算中心还在阿里云的支撑下实现了一套先进的大数据平台和AI研发平台。这是最初规划中核心需求之一,目的是支撑通用智能业务和智能驾驶业务的高效研发。
2022年6月,在完成了基础硬件体系部署后,阿里云团队开始着手部署大数据平台和AI研发平台,在具体部署过程中,团队针对部分硬件架构和软件功能进行了优化。
三个月下来,大数据平台和AI研发平台在吉利内部正式对各个研发团队开放试用。基于这两大平台,吉利的智能化业务需求的开发模式发生了很大的变化,吉利的研发工程师们最直接的感触是,数据处理速度、AI模型训练速度得到了极大的提升。
如今,阿里云的大数据平台和AI研发平台已经成了吉利星睿智算中心使用频率最高的产品和服务。
研发人员在大数据平台上可以进行数据存储、数据治理、数据分析、模型开发、模型训练与推理等一系列工作,尤其在模型训练环节,分布式训练框架可以对分布式策略进行自动组合和调优。这两大平台与云上智能驾驶SaaS工具链的结合,让吉利智驾模型的训练速度提升了200倍以上。
同年9月,随着星睿智算中心开放并进行了长达半年的试用和试运行,智能驾驶的研发运营流程实现了数据闭环,智能驾驶研发效能得到了明显的提升,1000个智驾模型的训练时长从原来3个月缩短到云上的8小时。
基于长兴,辐射全球
值得一提的是,作为吉利智能化转型的关键基础设施,智算中心最基础的能力是支撑人工智能业务场景的研发运营,这既需要大量的计算设备提供算力,也需要大量的人工智能相关技术人才保证吉利强有力的研发能力。
于是,吉利星睿智算中心选址就显得至关重要。
湖州长兴位于太湖之滨,能源供给体系完善,水电资源稳定可靠,而且此前长兴已与吉利提前规划和全资建设了金融级标准的IDC基础设施,也确保了研发的自主掌控能力。
综合评估之后,吉利星睿智算中心最终决定落地湖州长兴。
如今,星睿智算中心已经正式建成,这一智算中心不仅支持云上计算,还能够通过接入边缘节点,实现算力延伸支持。实际上,星睿智算中心以长兴基地为算力中心,理论上可以通过边缘节点接入的方式,对吉利分布在全国各地的生产制造设备提供智能算力支持。
在过去这十几年里,汽车产业再次得到了空前发展,汽车也从代步工具逐渐转变为人类的“第三生活空间”,这时,汽车的智能化水平在很大程度上决定汽车制造商的市场竞争力。
智能能耗管控模型能够提升续航里程和能源安全,智能驾驶模型能够提升行车安全和驾驶体验,智能座舱模型能够实现智能化人车交互并提升座舱体验……而这些算法模型的研发和完善,都离不开智算中心提供的智能算力。
因而,我们能够看到,在如今的全球化汽车产业竞争中,车企将竞争焦点纷纷聚焦到了智算中心的建设上。
吉利汽车集团CEO淦家阅表示,吉利正朝着“造世界级好车”的目标迈进,吉利星睿智算中心的启用是一个标志性事件,将帮助吉利在智能驾驶、智能座舱、新能源动力管理等领域拉开技术的代际优势。
吉利星睿智算中心,俨然正在成为国内汽车行业变革的风向标。
本文摘自《云栖战略参考》2023第一期