文/科技新闻 郝博阳
2023年是大模型狂飙的一年,各种研究日新月异,但它和大多数普通人的关联还远未建立。一方面是由于缺乏有效和多样的用例,大模型在一般人的手中能发挥出的作用很难超越搜索引擎。另一方面是体验上的限制。
当下主流的大模型应用,如ChatGPT, Charater.AI等,都是以App形式承载的云端应用,用户量一度达到数亿。但高通高级副总裁Ziad Asghar认为,只有当智能设备有更好的AI体验的时候,AI应用才能真正做到普及。因为设备端的能力能给用户带来更快的响应,更好的个性化配置和更便宜的价格。这三个因素对于消费者最终接受新兴产品来讲至关重要。
这种认知也来自于科技产业的历史经验。Ziad 认为新科技的扩散路径就是从云到端,过往的互联网等技术变革都是在服务器中,通过PC或移动端覆盖到更大的用户技术的。因此AI也会溯源这一路径,以设备为节点链接终端用户。
除了AI硬件能力的提升之外,高通对AI时代的应用和设备发展方向也有自己的预判。Ziad Asghar表示,AI在未来可能会成为一切应用的入口。这意味着过往要开启数个App才能完成的流程,在未来只需向AI助手提起单个需求即可完成。在这一应用程序范式转变的过程中,除了智能手机,AR、VR产品也有可能会成为AI应用的优质载体。
以下为科技新闻对高通高级副总裁Ziad Asghar访谈全文:
高通现在是一家AI公司
科技新闻:高通在2023骁龙峰会上着重强调了AI能力,在高通的定位中AI是一个怎样的gamechanger?
Ziad Asghar:高通实际上已经在人工智能上投入了超过15年。2022年底ChatGPT出现之后,人们开始每天利用它工作,并寻找在日常中如何更好使用它们的方法。风潮过后,我们思考的是从产品方面,如何让AI能够为消费者做更多的事情。
在过去,电脑只是一台电脑,但现在它可以利用AI为你做很多事情。它能让你以更高效的方式工作,包括内容创作,为你写邮件,完成比以前更多的任务。
而且在过去,人工智能是在背后默默工作的。它在幕后帮助你改进照片、音频、语音或视频质量。但随着生成式人工智能的出现,出现了基础模型和用例,它创造出了新的机会。我们每天都可以看到行业中出现新的模型,这些模型具有更多的功能,能够为我们带来新用途。
因此,从智能手机到PC、从AR/VR到汽车和IoT,我们的产品都在充分利用我们对人工智能的长期投入。这就是我们认为AI是行业真正转折点的原因。它或许会开启一个新的周期,人们要买新手机,会想要一部AI智能手机;他们想买的下一台PC,会是一台AIPC。我认为这就是我们能够为消费者带来更多价值的地方。
科技新闻:你提到了高通已经投入人工智能领域超过15年,所以它能算一家AI公司了吗?
ZiadAsghar:我们绝对是一家人工智能公司,如今大家更能明显的感知到我们的这一身份。
科技新闻:高通作为一家硬件公司是如何认知自己的AI价值的呢?
ZiadAsghar:所有的技术创新都会从云端开始,然后随着时间的推移,逐渐过渡到边缘设备上。这正是我们在人工智能领域所看到的:生成式AI模型非常庞大,如果你考虑模型和推理所需的工作量,就会发现端侧计算的重要性。现在,我们可以在智能手机、PC和XR产品上以非常快的速度运行70亿、100亿和130亿参数的像百川或Llama这样的大语言模型。在智能手机上,我们可以以每秒生成20个token的速度运行70亿参数的大语言模型,在电脑上这个速度达到了每秒30个token。因此,我们在终端侧已经拥有了强大的AI计算能力。
人工智能的应用主要有两个部分:训练和推理。模型训练主要发生在云端,只要给模型提供大量信息,模型只需要训练一次。但训练好的模型需要进行推理时,计算会多次重复发生,这很可能要发生在终端侧。这其实显而易见:在2005年,大约有10亿人口能够使用互联网;但如今,全球有50亿人能够使用互联网。这一增长中的很大部分要归功于智能手机对网络的接入。
你完全可以想象人工智能的应用发展也会是同样的情况。如今,生成式人工智能基本上是在云端进行的,但随着技术进一步发展,它会更多地出现在终端侧。当然,终端侧可以与云端协同工作。这将大大推动AI体验的普及。
科技新闻:在今年,我们看到所有的芯片公司都在强调人工智能。他们都在打造AI芯片以增强人工智能体验。那么,高通对AI芯片的定位和相对优势是什么?
ZiadAsghar:谁能更好地在终端侧运行生成式AI,谁就将成为人工智能的领导者。这就是为什么我们大力投入于进行模型优化,以及打造硬件解决方案,让终端侧能够在既定功耗下实现更多的AI能力,我们的硬件AI引擎在既定功耗下有着领先的AI推理性能,这使得我们能够以尽可能低的功耗,在终端上支持更高参数规模的模型,进行更多的推理操作。这一点至关重要。
从硬件角度,我们已经开发了模型量化、压缩和提炼技术。很多公司在云端训练模型时,是以浮点运算方式进行训练的。而高通能够支持整数运算,使得模型规模更小,功耗也更低。大语言模型的终端侧运行带来了许多挑战。要运行一个非常大的模型,需要将其存储在终端,在处理时需要占用DRAM内存,通过芯片进行推理。如果使用16位浮点运算推理像百川这样参数达到70亿的大模型,模型会占用终端大量的DRAM内存,许多手机甚至没有那么大的内存容量。但是如果使用4位整数运算,内存的问题就解决了。我们在这方面有着丰富的经验。同时,我们一直在打造软件工具,结合我们领先的硬件平台,我们能够非常高效地进行模型处理。因此,我觉得我们非常有优势,可以在AI边缘侧真正取得领导地位。
得益于我们长期的AI投入,我们打造了业界领先的硬件AI能力。以PC为例,我们刚刚发布了骁龙XElite,它的高通AI引擎拥有45TOPS的AI性能,而整个芯片的AI性能达到了75TOPS。在PC领域,我们的AI引擎,包括CPU、GPU和NPU的性能非常领先。
因此我们可以支持在终端侧运行Microsoft Copilot,以低成本打造丰富体验,不需要接入云端。这为我们带来了巨大的优势,我们能够赋能PC厂商打造出领先的AIPC产品。当然,在智能手机、汽车、XR等领域也是如此。
科技新闻:您刚才提到了软件。目前英伟达在AI服务器中的垄断地位,在很大程度上是由CUDAtoolkit的便利性带来的。高通在配套开发软件这方面有什么举措吗?
ZiadAsghar:2022年,我们推出了高通AI软件栈(Qualcomm AIStack)这一AI软件产品组合,它支持所有的AI开发框架,包括TensorFlowLite,PyTorch,百度飞桨等等,以及所有AI库、编译器等开发工具,让开发者能够基于任何引擎(包括CPU、GPU、NPU)进行应用开发。同时,我们还推出了高通AI引擎Direct的框架,它能允许开发者在非常接近硬件的位置进行编码,这使得他们能够充分发挥高通AI引擎的性能。
此外,你将看到我们将通过在世界移动通信大会等活动上推出更多新工具,在开发者支持方面做出更多努力。
(Qualcomm AIStack 架构)
从历史上看,新技术的扩散都是从云到端
科技新闻:为什么高通选择了端云混合AI作为你们的主要发展方向?
ZiadAsghar:这是我们研究了众多不同的生成式人工智能模态得出的结论。首先,对于不论是大语言模型、视觉模型(如StableDiffusion)、还是多模态模型,大部分模型的运算规模都不超过150到200亿参数。另一个趋势是模型参数规模在不断缩小,同时功能越来越强大。像Llama2或者是百川这种规模的模型,他们相比于ChatGPT这样规模更大、需要在云端运行的模型来说,能力也非常强大。所以,当你把这两个趋势结合起来思考时,就能明白终端也能够做更多事情。而且在未来,我们的AI能力会持续提升。
但仍然会有非常庞大的模型,比如推荐模型无法被压缩。因此,我们认为它们可以继续在云端运行,在混合AI模式下,模型可以在端侧处理一部分内容,这可以保证消费者的数据隐私,这对他们来说这非常重要。系统会将其他推理任务传递到云端进行处理。通过混合AI,模型能够同时利用终端和云端优势,给消费者提供最佳体验。
假设,你正在利用AI对电脑上的文件进行摘要,如果这个文件有一定版权性质,你肯定希望处理工作能在本地进行,那么系统就会在端侧将这个任务完成。但假设你需要一个必须在云端处理的推荐模型,我们也可以利用在终端和云端进行分布式处理的技术。AI处理可以拥有一个云端和终端之间的协调层,实现非常出色,统一的跨终端体验。
科技新闻:除了隐私保护外,终端侧AI还会带来什么云端无法带来的用户体验?
ZiadAsghar:首先,假设你在飞机上无法连接网络,这时候你就无法使用任何云端大语言模型或其他类似的功能。而如果你在终端侧运行AI,虽然断了网,但你仍然可以获得完全相同的体验。在汽车数字座舱中也是如此,当用户驾驶到没有网络覆盖的地方,也可以利用终端侧AI。
第二点,端侧模型可以实现非常快速的响应。消费者的耐心有限,如果不能够迅速地回答他们的问题,他们就会去其他地方寻找答案。因此,我认为即时性是非常重要的。
第三点是成本。成本是非常重要的因素。如果你不是在终端侧,而是在云端运行生成式AI,那就会用到高算力的GPU,耗费大量的电力。这些GPU会消耗数百瓦的电力,而你的设备只需要几毫瓦。因此,当有更多的生成式人工智能用例出现,有更多的人使用生成式AI时,云端计算规模也会对应增长,成本就会增加。而在终端侧运行则基本解决了这个问题:基本可以说是免费的。
最后的一个非常重要的优势是,智能手机会知道现在的时间,你在美国还是在中国;智能手机知道你是在行走,还是在交谈,还是在开车。如果我在云端大语言模型上提问寻求帮助,它给我的答案和它给我11岁的女儿的答案不会有任何差别。但如果我们能够利用终端侧可用的信息,使得查询更加精准,AI就可以给我一个更优化的答案,比如一个根据我所处位置不同的答案。所以,终端侧AI对实现个性化体验非常重要。甚至可以想象,随着时间的推移,手机或电脑上的模型会基于用户特征进行持续的个性化优化,这是云端模型难以做到的。
腾讯科技:前几年流行的“全部上云”风潮,包括苹果的云游戏策略等,都是通过云技术的发展,延迟的降低,在很大程度上也降低了游戏机等设备的端侧能力需求。这一发展潮流是否会在AI模型方面出现?所以端云混合是否只是一个阶段性的解决方法?
ZiadAsghar:云游戏是很多公司尝试过的东西。但如果你仔细观察,会注意到能够在云上运行的游戏类型很有限,只有那些对时延不敏感的游戏才行,比如策略游戏。但如果是像多人联网动作游戏这种对时延要求很高的游戏类型,就不适用于在云端进行。在AI用例方面,比如车机系统中的ADAS应用(高级辅助驾驶),它必须支持在终端侧进行操作,因为它对即时性的要求会非常严格。所以云系统在很多方面是非常受限的。
另外,这些服务许多都是需要付费的。我认为这也是云端和终端的区别所在。我们在终端侧所做的,你可以随时进行,而且不会产生费用。放在云端的所有东西,都会持续收取费用。
AI未来就是一切应用的入口
科技新闻:在目前,AI大模型还主要是以App的形式出现在智能设备之中的。您觉得后续随着AI能力的加强,应用程序生态会发生怎样的变化?
ZiadAsghar:实际上,这正是我们目前所设想的情况。假设你要预订一张去中国的机票,现在你要做的第一件事是打开一个应用,然后找到里面价格最便宜的航班,把它添加到另一个日历应用里,然后再查看你的日历确认你什么时候出发。这是现在你定航班的流程。
那如果你的虚拟AI助手就是你所使用的终端上的唯一交互对象,你就只需要和它交互,而它再在幕后启动三、四个应用,为你直接返回结果,找到最优的航班,提供你可以选择的时间。现在即使在家里使用一些智能家居应用,我也必须打开三四个不同的应用才能弄清楚该怎么操作。但有了AI你就不再需要这样做。
这同样也适用于汽车。今天它的交互非常机械化,但在未来你可以跟它说,“我还有大概三个小时就要去机场,你能给我找家好吃的日料店吗?”汽车就能够在不耽误航班的情况下满足你的需求。这是一种全新的体验,就像《霹雳游侠(Knight Rider)》里那样,我就是看着《霹雳游侠》长大的。所以我们现在有了这样的技术,可以改变过往的用户交互界面。
(美剧《霹雳游侠》,1982年开播,其中的智慧汽车K.I.T.T.由AI驱动,可以对话和自动驾驶)
科技新闻:所以在你看来,AI会成为一个万能应用吗?
ZiadAsghar:我认为这正是未来的发展方向:你不用再打开4-5个应用去完成一件事,而只需要和AI虚拟助手交互即可。它会搜集需要的信息并直接给你答案。这就是人工智能帮助我们节省时间的方式。我们不需要再进行这些繁琐的工作了,生活也会更加轻松。
科技新闻:那在这样一种万能应用的背景下,电子设备本身会发生什么改变呢?新型的AI设备会是什么样的?
ZiadAsghar:智能手机当然会从中受益,因为这是人们最常用的终端。但是我们做了更多准备,我们有AR/VR产品,未来可能会有虚拟助手出现在你的AR眼镜上,它也可以出现在AIPin上。高通致力于赋能广泛的边缘侧智能网联终端,我们认为其他终端类型也将不断发展,AI设备的形态创新还有很大空间,我认为这就是初创公司能尽力进行创新的地方。
科技新闻:你提到了VR、AR。这些XR设备之所以不流行很大程度上是因为没有合适的交互方式。AI的出现会改变这种情况吗?
ZiadAsghar:绝对会。比如AR眼镜,你不能像智能手机那样在上面输入文字,所以最好通过语音进行交互,或者你要指着某样东西,那这个设备需要有出色的手部追踪技术。它需要不同种类的互动方式,而人工智能非常适合将这些交互形式变为现实。