集微网报道(文/张轶群)7月6日,2023世界人工智能大会芯片主题论坛在上海举办。会上,高通全球副总裁兼高通AI研究负责人侯纪磊博士做了题为《全栈AI优化 打造领先的边缘AI性能》的演讲,介绍了终端AI的重要性和优势,高通在终端AI方面特别是生成AI方面的进展,以及对于混合AI在高效推动AI规模化落地等方面的看法。
全栈式AI优化 打造高效能AI
如今,尽管大量AI的训练和推理仍在云端进行,但终端侧的人工智能正变得越来越至关重要。通过在最靠近数据源头之处处理数据,并同云端形成互补,往往能够带来在隐私、可靠性、低时延、成本、能耗、个性化等方面的显著优势。
“比如在成本方面,生成式AI通常参数体量巨大,如果在端侧部署,能够推动成本的显著降低。而在AI数字助手方面,手机、驾舱、PC等使用场景,端侧AI则能够很好地满足私密性、个性化的需求。”侯纪磊说。
据侯纪磊介绍,早在十几年前,高通便开始了AI方面的研发,其中一个重要研究方向就是高效能AI,在包括硬件、算法和软件等层面进行了大量的研发创新。
在高效硬件方面,通过对高通移动平台中CPU、GPU、NPU等不同单元进行优化,最终使得针对不同任务,能够选择合适的计算模块运行,侯纪磊认为这是高通端侧AI非常显著的特点。在算法层面,高通具有一支顶尖的深度神经网络算法团队,有很多原创性的研究成果。在软件方面,在面向深度学习的软件加速runtime以及SDK/开发框架方面,高通对于客户以及开发者都做出了很好的支持。
“因此,高通AI研究的一个非常重要的原则,就是全栈式的AI创新和优化。通过跨层的模型、硬件和软件创新加速AI应用,这种早期研发和技术发明对于引领生态系统发展至关重要,而最终将技术提供给商业团队,并通过部署过程中的收获来影响未来的研究,形成正向循环。”侯纪磊说。
量化研究处于行业最前沿
据侯纪磊介绍,高通在高效能AI研发中,一个重要的部分是整体模型效率研究,目的是在多个方向缩减AI模型,使其在硬件上高效运行。
比如在量化方面,学习在保持所需精度的同时降低比特精度;在条件计算方面,学习仅基于输入执行大模型图例模型部分组件;在神经网络架构搜索方面,学习设计更小的神经网络,能够在真实硬件上媲美或超过人工设计架构;在编译方面,学习编译AI模型以实现高效的硬件执行等。
“在量化方面,高通一直在业界进行无论是从学术研究还是落地层面的推动。包括Stable Diffusion和ChatGPT等最终要在端侧实现,量化一定是非常重要的手段。在高效能的推理方面,整数的点运算是非常重要的方向。在这方面,高通在积极推动相关学术研究,包括在顶级学术会议上的发布一些论文的同时,也会定期放到开源的工具包AIMET中。通过领先的AI研究和快速商业化,推动行业向整数推理和高能效AI方向发展。”侯纪磊说。
侯纪磊还重点提及了高通在2020年的一项研究成果AdaRound量化研究算法,包括很多先进的理念和技术。
“高通能够将Stable Diffusion引入端侧,AdaRound就是其中一个非常重要的量化手段。此外,在大语言模型来到4bit时,包括GPTQ等主流技术,实际上也是基于AdaRound演进的简化。所以在量化方面,不管是学界还是业界,高通都处于非常前沿的位置。”候纪磊说。
广泛赋能众多类型终端
在今日开幕的2023 世界人工智能大会(WAIC)上,第二代骁龙8移动平台的高通AI引擎荣获此次大会的顶级奖项:SAIL奖卓越人工智能引领者奖。
第二代骁龙8凭借面向整个平台的开创性AI智能设计赋能了非凡用户体验,树立了网联计算的新标杆。其搭载高通技术公司处理速度最快、最先进的高通 AI 引擎,通过软硬件的一系列创新,相较上一代带来4.35倍的AI性能提升和60%的能效提升,从而为越来越多的创新型AI用例和AI增强的用户体验提供强大的性能基矗
高通 AI 引擎由多个硬件和软件组件组成,用于在骁龙移动平台上为终端侧 AI 推理加速。它采用异构计算架构,包括高通 Hexagon 处理器、Adreno GPU、Kryo CPU 和传感器中枢,共同支持在终端上快速而有效的运行 AI 应用程序。其关键核心 Hexagon 处理器拥有一系列创新,如提供专用供电系统、支持微切片推理、INT4精度、Transformer 网络加速等,可结合高通 AI 软件栈和 AI Studio 提供全栈 AI 能力和优化手段,在行业内率先在终端侧支持 Stable Diffusion、ControlNet 等生成式 AI 用例,并可与云端协同打造适应大模型时代的混合 AI 处理框架,从而助力AI体验创新和生态繁荣。
此外,侯纪磊介绍了AI在5G方面的应用。在今年的世界移动通信大会(MWC)上,高通发布了骁龙X75调制解调器及射频系统,引入了第二代高通5G AI套件,包括专用张量加速器。同时,据侯纪磊介绍,高通AI团队也与无线团队一直保持非常紧密的深入合作,从而能够保证将研究成果更快推向商用。比如通过AI技术进行毫米波波束管理,扩毫米波通信的覆盖范围;通过AI辅助GPS定位,提升定位的精准度等。
“目前,高通已经形成了在边缘侧的布局和规模化的优势。搭载骁龙和高通平台的用户终端数量已经达到数十亿台。每年有数亿台搭载骁龙和高通平台的终端进入市常我们的AI能力赋能一系列广泛的产品,包括手机、汽车、XR、PC和物联网设备。”侯纪磊说。
持续推进支持百亿参数大模型
去年年底,由ChatGPT引发的生成式AI浪潮席卷全球,而在生成式AI方面,高通于数年前便开始着手布局。
侯纪磊认为,生成式AI将影响各类终端上的应用场景。比如XR方面,基于简单提示,创造沉浸式的3D虚拟世界;汽车方面,拥有先进驾驶辅助系统/自动驾驶,通过预测不同行为主体的轨迹和行为,帮助改进驾驶策略;在手机方面,成为真正的数字助手;在PC端,通过撰写电子邮件,创建演示文稿和编写代码,变革生产力;在物联网方面,有助于提升顾客和员工体验,比如提供库存和商店货架排列推荐等。
今年的MWC上,高通的第二代骁龙8移动平台已经可以支持参数超过10亿的AI模型运行,并进行了全球首次端侧运行超过10亿参数模型的演示。对于端侧能够有效支持的模型规模,侯纪磊认为,在广泛的用例中有很多基于10亿参数为单位,从10亿到100亿便能够涵盖相当多数的生成式AI,并能够提供非常好的效果。据侯纪磊介绍,未来几个月内,高通有望支持参数超过 100 亿的模型在终端侧运行,明年将能够支持参数超过200亿的模型。此外通过全栈式的AI优化,未来也将进一步缩短大模型的推理时间。
侯纪磊指出,云经济难以支持生成式AI的规模化发展。如基于传统方法和生成式AI的网络搜索,单次查询成本将是传统的10倍,如果再叠加众多的生成式AI应用以及数十亿的用户基数,这将在云端带来显著的负担。因此,推动端侧和云端互补的混合AI,将是未来推动生成式AI落地的显著趋势。
“未来场景中有中心云、边缘云、有终端侧,AI处理中心在一定程度上可以向边缘发展,因此混合AI是未来能够支持生成式AI、大语言模型等实现全球化、规模化发展的重要手段。这个过程中,在包括无线连接、高效计算、分布式AI等方面,高通都能够通过与业界的合作带来更多创新。”侯纪磊说。
侯纪磊指出,对于混合AI的部署,当终端侧具备强大生成式AI能力的时候,可以作为一个“锚点”。比如帮助工程师生成代码,高通的愿景是未来一两年内,在100-200亿参数的范围内,能够使得大量工程师在端侧进行代码撰写。端侧AI作为智能“锚点”发挥指挥或协调的作用,可以将合格的代码交给开发者,不理想的生成代码指令再交给云端进一步处理,从而带给用户无缝体验。
“终端侧AI具有诸多优势,是让AI无处不在的关键。混合AI是AI的未来,而我们的终端侧AI领导力将支持生成式AI规模化扩展。”侯纪磊最后强调。