作者:王昕 来源:IT时报
近日,高通发布了《混合AI是AI的未来》白皮书。白皮书中阐释的基本观点是:随着生成式AI正以前所未有的速度发展以及计算需求的日益增长,AI处理必须分布在云端和终端进行,才能实现AI的规模化扩展并发挥其最大潜能。
作为终端侧AI领导者,高通代表的是,包括手机、汽车、XR头显与眼镜、PC和物联网等在内的数十亿边缘终端,未来该如何更泛在化地应用和实践AI。
如果AI将变得无处不在,那么高通认为混合AI是必然趋势,终端AI和云端AI的融合将是未来最主流的场景,这是绿色低碳的需要,也是用户体验的诉求,一个多层级的AI和算力网络正争相塑造一个全新的未来AI生态系统。
同时,高通向业界提供了一个重要信息,参数超过10亿的AI模型已经能够在手机上运行,且性能和精度达到与云端相似的水平,未来几个月内,基于高通产品的终端侧AI能力还会继续突破,望支持参数超过100亿的模型在终端侧运行。而这意味着,手机芯片和系统将具备运行小型行业GPT规模相当AI模型的能力。
全球首个Android手机侧运行10亿参数AI模型
“随着生成式AI的飞速普及,混合处理的重要性空前突显。”高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar表示,混合处理AI的重要性空前突显,正如传统计算从大型主机和瘦客户端演变为当前云端和边缘终端相结合的模式,AI处理必须在云端和终端混合进行才能发挥其最大潜能。
高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar
Ziad Asghar表示,高通已经实现了全球首个Android手机上的Stable Diffusion终端侧演示。
据悉,Stable Diffusion是一个参数超过10亿的超大神经网络基础模型,能够基于输入的文本提示生成图片。根据高通的演示,将手机设置成“飞行模式”,再通过手机端全栈AI优化,这一模型能够完全在终端侧运行,实现在15秒内完成20步推理,生成饱含细节的图像。很重要的是,即便在飞行模式下,这些AI能力都可以得到实现,例如将Stable Diffusion的能力集成到相机应用中之后,用户在任何一个地点拍摄照片,再要求AI将照片背景改为夕阳之下的万里长城。
节约、高效是这种趋势的最主要推动因素。举例来说,使用基于生成式AI的搜索,每一次查询其成本是传统搜索方法的10倍,而这只是众多生成式AI的应用之一。
Ziad Asghar透露,如果在云端运行一个超过10亿参数的生成式AI模型,可能需要数百瓦的功耗,而在终端侧运行需要的功耗仅有几毫瓦,“这赋予了高通在生成式AI领域的独特优势。不久的将来,拥有 100 亿或更高参数的模型将能够在终端上运行。”
Ziad Asghar表示,在云端服务器上训练的模型一般采用32位浮点运算(FP32),高通希望通过整数运算模式和量化技术进行AI推理,即时获取模型推理结果。针对Stable Diffusion,高通采用8位整数运算(INT8)。去年年底发布的第二代骁龙8移动平台上,高通已经能支持了4位整数运算(INT4)能力。
对于混合AI的运行模式,高通技术公司工程技术副总裁侯纪磊解释,混合AI架构可以根据模型和查询需求的复杂度等因素,选择不同方式在云端和终端侧之间分配处理负载。例如,如果模型大孝提示和生成长度小于某个限定值,并且能够提供可接受的精确度,推理即可完全在终端侧进行;如果是更复杂的任务,模型则可以跨云端和终端运行。
“混合AI还能支持模型在终端侧和云端同时运行,也就是在终端侧运行轻量版模型时,在云端并行处理完整模型的多个标记(token),并在需要时更正终端侧的处理结果。”侯纪磊表示。
“我们能够提供非常高效的token生成速率,完全不会因为时延影响到用户的体验。”Ziad Asghar强调,流畅的用户体验也是端侧AI的核心优势之一。
关注中国本土AI模型
显然,对于混合AI的未来发展,高通在多个维度都持开放的态度。
高通不会局限于某个场景,例如ChatGPT,Ziad Asghar说,目前大语言模型的模态非常丰富,并且已经出现了多模态模型,如文本生成图片、文本生成文本、文本生成视频,甚至图片生成文本、图片生成视频等方式,这将揭开新的序幕,高通已经开始面向不同场景和用例需求的模型展开工作。
“高通对模型的应用持有非常开放的态度。”Ziad Asghar表示,针对中国市场的模型,高通会专注于面向本地语言和使用场景的模型调优和训练,以让用户能够根据不同的需求,随时随地地使用模型,“我们当前在关注不同的开源模型,同时我们也将与众多的中国合作伙伴携手,实现这些模型在本土市场的终端侧部署。”这意味着,高通原则上存在与中国大模型公司合作的可能性。
与此同时,针对用户所担心的个人隐私数据保护,终端侧AI恰恰能够解决这一问题。“无论是10亿参数的模型,还是100亿参数的模型,如果能够完全在终端侧来运行,比如用户发出一个查询,终端接收之后能够独立完成推理,那么所有相关的查询信息和数据都会留在终端上,不会离开终端。”Ziad Asghar认为,这对用户来说是非常直观的隐私和数据保护优势。
大模型会在C端和B端同步落地
白皮书中,高通将自研AI技术的起步时间点定在了2007年。Ziad Asghar介绍,高通长期专注于脉冲神经网络SNN研究,骁龙820平台搭载第一代高通AI引擎,是高通最先应用这一技术的产品。
Ziad Asghar表示,目前高通AI引擎涵盖了CPU、GPU以及Hexagon处理器,这保证了AI需求可以被在最合适的环节和位置被处理。去年,高通还推出了专门面向Transformer处理的领先技术,能够大幅提升Transformer处理效率。
对于未来,Ziad Asghar认为,AI大模型会在C端和B端同步落地,无论是智能手机、VR、AR还是汽车等面向消费者的智能设备,亦或是企业级的搭载骁龙计算平台的PC、智能手机等,都将是AI大模型的载体,“只要人们用手机,就可以感受到AI带来的优势。”