端侧AI大模型新赛道最近又迎来两个重量级玩家苹果和华为,这为智能终端(主要是手机)走出低迷状态提供了新的希望和动力。
Apple GPT是苹果公司基于其自研的Ajax框架开发的AI工具,目前在苹果公司内部展开小范围内测;华为则通过在8月4日下午举行的HDC 2023开发者大会上发布的HarmonyOS 4的智能助手“小艺”,展示了端侧AI大模型在应用层面的能力。
此前,Meta、OpenAI、高通、谷歌、腾讯和百度等,已经或即将推出支持端侧AI大模型的应用或技术框架,正在快速勾勒这个全新方向的技术和市场前景。
HarmonyOS 4:有何端侧AI大模型能力
8月4日,华为正式发布HarmonyOS 4。华为HarmonyOS是面向万物互联的全场景分布式操作系统,支持手机、平板、智能穿戴和智慧屏等多种终端设备运行。
在华为这个著名的IoT操作系统的第四版中,端侧AI大模型(即在手机侧运行大模型)的能力成为关键核心。
“今天我们已进入大模型时代,华为盘古大模型将助力鸿蒙生态。”华为常务董事、终端BG CEO、智能汽车解决方案BU CEO余承东说,“通过盘古的底层能力加持,华为将为用户带来智慧终端交互、高阶生产力效率、个性化服务的全新AI体验变革。”
基于AI大模型的文本生成是HarmonyOS 4的一部分。随着大模型的日益发展,小艺获得全新升级,增强了交互、生产力和个性化服务三个方面的能力。
文本生成和总结能力,这是各家推出大模型应用的标准能力,HarmonyOS 4也不例外。通过小艺,可识别图片中的内容和文字,能朗读文字内容并接入更多服务。
高通产品管理高级副总裁兼AI负责人Ziad Asghar认为,大模型将迅速重塑人机交互方式。
HarmonyOS 4的交互变化看上去并不显著。在语音交互基础上,扩展了文字、图片和文档等多种形式的输入。比如,用日常说话的方式自然地与AI交流,小艺可自动完成指定任务。这一点在iPhone通过Siri早已能达成。
但是,作为首个具备AI大模型能力的智能助手,小艺对自然语义的理解更深。
举个例子,iPhone的AI助手Siri需要C端用户输入的语音指令语义清晰而精确,而HarmonyOS 4则能理解相对含义不太明显的语音指令,因而搭载HarmonyOS 4的智能手机,能更精准、更迅速地完成任务。
此外,由于小艺具有的大模型AI泛化能力和手机智能助手连接了多种服务和特殊场景,因此也能比之前更快地获取服务。
比如,若收到一张活动海报图片,C端用户对小艺下达指令,AI能自动识别图片上的地址,给出导航按钮或保存海报电话作为联系方式。
若浏览一篇数千字的英文新闻,小艺可直接速读文章、做翻译并完成摘要,也能回答与该篇新闻有关的问题。
HarmonyOS 4还有生成能力。比如自动生成各类商业电子邮件内容或生成图像;也能用终端保存的个性化照片,小艺调用AI画图功能生成各种风格的图片。
随着C端用户和小艺的持续交流,小艺会持续提升AI能力。这些交互数据会保留在端侧,以保护用户隐私。
个性化是智能手机应用的特征。小艺具备的记忆能力会随着长时间使用,越来越懂“主人”,给出的建议更贴心:比如出行,在出行前提供完备而丰富的出行信息,落地后又能提供本地信息,并根据用户习惯,实现个性化推荐。
据华为透露,小艺这些新的能力,将在8月下旬开启公开测试体验。
这不是华为首次尝试将AI大模型接入移动终端。今年3月,华为发布的P60手机,自带智慧搜图功能。这项功能基于多模态大模型技术,通过在手机端侧对模型做小型化处理,实现了手机侧的大模型运行。
苹果动作缓慢,高通热情高涨
瞄上端侧AI大模型能力的智能终端商不只有华为,还有苹果。
苹果正在秘密研发的GPT软件叫做Apple GPT,基于苹果自研的Ajax框架开发。
但目前,Apple GPT缺乏更多细节,外界难以知晓其技术或应用能力究竟有哪些亮点。对此,苹果明确表示,目前尚未决定Apple GPT未来的开发方向。
此前,在第二财季财报电话会议中,苹果CEO库克承认,Al潜力巨大,但如何使用AI技术,仍需要深入思考。库克说,苹果已将AI技术整合进产品和服务,未来也将继续这一进程。
全球首个面向消费级市尝大规模落地、应用NLP技术的智能助手,iPhone Siri,今年已经12岁。与刚刚全新升级的华为小艺、小米小爱、百度小度一众“晚辈”相比,Siri非但不智能,还显得有点“智障”。
外界认为,苹果落地GPT能力的载体很可能是这个呈现“暮年”状态的Siri,但这未能得到苹果的证实。
尽管如此,苹果入局端侧AI大模型的迹象非常多。比如,今年1月,苹果启动一项新计划,为Apple Books添加数字旁白功能,以从书面文本中自动生成高质量的AI旁白音频;在iOS17更新版,苹果用Transformer语言模型完善输入法的预测和拼写纠正功能。
还有,新款AirPods Pro通过机器学习(ML)实现自适应音频模式,可通过识别外部环境自动调节音量;iPadOS 17用机器学习模型实现对PDF字段的识别;Vision Pro使用机器学习技术“编码器-解码器”神经网络为用户构建数字化身。
苹果如何布局AI赛道,这是一个系统大问题,很难用数百字说明白。但Siri开发团队的技术工程师对改变Siri的“蠢笨”看起来缺乏真正的动力,背后折射了“组织功能障碍和缺乏雄心”的现实,很可能会影响苹果在端侧落地AI大模型的效率。
但苹果的低效,不能改变端侧AI大模型在智能终端的部署规模,这是无可存疑的事实。因为包括高通、Meta、OpenAI、谷歌、亚马逊、腾讯和百度,都在等都致力于实现AI大模型在移动终端的轻量化部署。
OpenAI团队在7月第四周推出覆盖iOS/安卓系统的移动端ChatGPT应用;Meta将与高通合作,从2024年起,其开源大模型Llama 2将能在旗舰智能手机和PC上运行;高通表示正在将更多生成式AI用例向边缘侧迁移,目前,参数超过10亿的AI模型已经能够在手机上运行,且性能和精度达到与云端相似的水平。
谷歌、腾讯、百度等已将模型压缩技术紧密结合移动端模型部署框架/工具。
其中,高通对此热情高涨。高通首席执行官克里斯蒂亚诺阿蒙在一份声明中强调,高通能在手机上而不是云服务器上运行AI模型,这为高通提供了实现“拐点”的机会,从而推动未来的增长。
“总之,我们处于独特的地位,可以帮助塑造和利用即将到来的设备上的Gen AI机会。”阿蒙说。
智能手机整体市场下滑态势何时能停止,目前仍无法确定;但是,端侧AI大模型赛道迎来的这波众多B端参与者,是重塑这个日渐低迷的电子消费品类的应用和市场格局的新希望所在。