芮勇博士是联想集团首席技术官、高级副总裁,同时也是联想集团最高决策机构(LEC)成员以及联想技术委员会副主席。他负责联想集团技术战略和研发方向的规划和制定,并领导联想研究院的工作。在加入联想之前,芮勇博士曾在微软工作18 年,任微软亚洲研究院常务副院长。他是中国计算机学会会士,中国人工智能学会会士,ACM Fellow,IEEE Fellow,IAPR Fellow和SPIE Fellow,以及欧洲科学院外籍院士。
近日,芮勇博士接受了《中国计算机学会通讯》(CCCF)的专访,分享了他对火爆全网的ChatGPT等大模型的看法,以及大模型为企业智能化变革带来的机遇和挑战。
CCCF:最近ChatGPT火爆全网,您对此怎么看待?
芮勇博士:ChatGPT是OpenAI GPT系列中为对话场景优化的语言模型,属于Foundation Models,即基础模型,这里我们简称为“大模型”。它的特点可以概括为“一大三多”:一大是指参数规模大,大模型是千亿参数级别的超大型人工智能模型;三多是指利用多来源、多模态、多任务的互联网规模海量数据进行训练。这些训练数据大多是未标记的,模型通过无监督的方式进行预训练,然后适配到各种各样的下游任务,例如自动问答、情感分析、信息提娶图像标注、物体识别、指令执行等等。
大模型首先在内容理解领域大获成功,例如BERT问世时刷新了11项自然语言理解任务的记录。最近大模型又在内容生成领域取得了瞩目成就,也就是我们所说的AIGC。ChatGPT就属于AIGC的范畴,因为ChatGPT本质上是个生成式语言模型,根据上下文语境计算下一个最可能出现的单词,进而生成完整的句子。除了文本生成,大模型也可以成功地应用于代码生成,根据问题描述自动生成代码,或是根据上下文修正代码中的错误。不难理解,代码是程序员与计算机交流的语言,语言模型可以从自然语言扩展到编程语言。此外,大模型还能根据自然语言描述,生成相应的图像和视频,甚至是超现实的艺术作品,这使得普通人也能进行创作。所有这些都是大模型在内容生成领域的进展。
CCCF: 大模型背后都有哪些技术使它如此成功呢?
芮勇博士:我们可以从以下几方面来理解大模型背后的创新性技术。
从模型规模方面,大模型已经具有数千亿参数,这样的规模使得模型能学习到大量的模式与常识,甚至建立一定的推理能力。例如,早期的深度神经网络VGG-16有1.38亿个参数,ResNet-152有6000万个参数;而大模型GPT-3有1750亿参数,Google PaLM有5400亿参数。可见,大模型比早期的深度神经网络大数千倍;
从训练数据来看,大模型是用互联网级别的海量数据训练出来,这种规模的数据集包含丰富的模式、知识和常识。例如GPT-3使用了爬取的文本、高质量的网页、维基百科,和书籍语料库,总数据量约5千亿词元(tokens);
从训练方式来看,机器学习典型的方式是采用全监督方式训练,即训练样本需要有标注。而人工数据标注是传统人工智能系统的瓶颈。近几年发展起来的自监督学习方法,可以使模型直接从未标记的样本中学习特征表示,有效地避免了耗时耗力的人工标注问题。另外,针对语言模型而言,ChatGPT采用了RLHF (Reinforcement Learning from Human Feedback) 技术,基本思路就是在训练阶段使用强化学习的方法,直接用人的偏好来优化模型的输出结果;
从泛化能力来看,对传统人工智能系统来说,AI模型部署后遇到的环境变化是一个巨大的挑战,往往需要一定数量的领域特定样本来微调或更新预训练模型。而大模型无需更新模型参数,即有多任务多领域的适应能力,甚至可以应对训练时没有遇到过的任务类型和问题领域。
CCCF:人们普遍认为大模型催生了AI的新范式,那具体怎么来理解呢?
芮勇博士:我们可以回顾GPT的发展历程来理解AI范式的转变。GPT系列论文的题目就指明了它的发展阶段:
GPT-1,Improving Language Understanding by Generative Pre-training (生成式预训练提升语言理解能力)。它使用预测下一个词的方式训练出基础的语言模型,对语言产生了理解。然后针对分类、蕴含、近义、多选等下游任务,使用特定数据集,更新模型参数,对模型进行调优与适配;
GPT-2,Language Models are Unsupervised Multitask Learners (语言模型是无监督的多任务学习者)。这个阶段的GPT通过多任务学习,获得了迁移学习的能力,它初步显示了零样本(zero-shot)设定下执行各类任务的能力,而无需进行任何参数或架构修改;
GPT-3,Language Models are Few-Shot Learner (语言模型是小样本学习者)。GPT显示出强大的in-context learning能力,即用户用少样示例来说明任务(prompt),例如给出几对英语到法语的单词做为示例,再给出一个英语单词,GPT即可理解用户意图是要做翻译,继而给出对应的法语单词;
ChatGPT(GPT-3.5),Optimizing Language Models for Dialogue (为对话场景优化语言模型)。这时的GPT进化到指令执行(instruction following)能力,即不必给示例,只要使用自然语言给出指令,GPT就可以理解用户意图。比如,直接告诉GPT要把某个英语单词译法语,GPT即可执行给出结果。
简单来讲,AI范式的转变,是从“针对特定任务,更新预训练模型”(small models + fine-tuning)转换到“根据上下文提示自动理解并执行各类任务,无需更新模型参数或架构”(large models + in-context learning)。
CCCF:ChatGPT的成功,让有些人看到了由大模型通往AGI (通用人工智能) 的曙光,对此您怎么看?
芮勇博士:关于大模型能走多远,前景到底如何,是否能实现“多任务,多模态,多化身的大一统”,目前还颇有争议。近几年大模型有了突破式进展,很多人持乐观态度。例如,DeepMind 研究主任 Nando de Freitas 的观点是“规模致胜”,认为只要把模型的规模做大,AI领域的很多难题就解决了,游戏结束了!然而UC Berkeley教授Jitendra Malik表达了反对观点,认为这些大模型是空中楼阁。提出Foundation Models这一术语的论文作者Bommasani etc. 也表达了类似的担忧,认为尽管大模型即将广泛部署,但目前我们缺乏对它们工作原理、以及“涌现”性质的清晰理解。
从Gartner技术成熟度曲线可以看到,大模型目前处于“期望膨胀阶段”(Peak of Inflated Expectations) 。人们对它的期望很高,但我们也应该看到,大模型尚未解决的问题还很多。比如谷歌版的ChatGPT,取名Bard,首次公开展示就出现回答结果不准确的问题,导致公司市值一天之内蒸发超1000亿美元。此外,对话机器人生成句子里包含的信息无法溯源,甚至包含偏向性和冒犯性言论等等。可见,通往AGI的道路还很漫长。
CCCF:能玩得起大模型的公司毕竟是少数,非巨头公司应该如何应对呢?
芮勇博士:我们先从技术角度来看看大模型取得突破式进展的原因。从GPT的发展历程中,我们可以看到,大模型背后的算法包括元学习(meta-learning),小样本学习(few-shot learning),多任务学习(multi-task learning),强化学习(reinforcement learning),人机回环(human-in-the-loop),上下文学习(context learning)等等。其实这些算法都是机器学习领域的基础性问题。近年来这些算法的发展,催生了今天大模型的成功,只不过有些算法在大模型里是隐式实现,有些是与传统方式不同的实现。
我们关注大模型的成功,更要关注背后这些基础算法的作用。我们可以把这些基础算法和先进理念应用到自己的AI技术和产品开发当中。可以理解为,化整为零,即这些基础核心算法单独使用;化零为整,即实现“大一统”的大模型。另外,大模型会逐渐形成生态,非巨头公司可以站在大模型这个肩膀之上,聚焦工具链,开发应用,或是考虑使用大模型更新业务模式、创新产品形态。
CCCF:大模型的目标为“大一统”,多种不同任务都可以由单一的大模型来完成,并且在越来越多的任务上实现新的突破。那么,应用AI的企业在未来是否要全面转向大模型呢?
芮勇博士:将一项技术注入产品或赋能业务,需要综合考虑很多因素。当前阶段的大模型还有很多问题没有解决。另外,用户场景产生的需求不同,应用程序的运行环境也各异,大模型并不是普遍适用的。比如,ChatGPT的知识库截止到2021年,它无法回答时效性问题,或是进行新闻资讯类对话。也就是说,对于需要不断知识更新的业务场景,目前它还不能胜任。这也是ChatGPT嵌入搜索引擎时的一个重要考虑因素。
再比如,大模型表现出多领域多任务的泛化能力,但我们对这种预训练模型无需微调的泛化能力还缺乏清晰的认知。对于工业应用,产线上的缺陷检测,对模型可靠性的要求很高,如果出现“时灵时不灵”,则会造成重大损失。另外,大模型的参数量在数千亿级别,使用时需要设备端与云端实时联接,那么对于网络通讯能力较弱的嵌入式设备,也不适合使用。当运行环境再苛刻一些,比如仅需要运动检测或唤醒词功能的IoT设备,设备功耗在毫瓦的数量级,不能联网,内存和计算资源也相当有限,这就更不适合大模型的应用了。
CCCF:大模型的兴起给从事AI的企业带来了哪些机会呢?
芮勇博士:大模型的兴起,为进行智能化变革的企业带来了很多新的机遇。以微软为例,目前已经推出了编程辅助工具Copilot,在程序员写代码时自动提供建议。微软还引入AI图像生成器DALL-E 2帮助设计者生成图像,只要输入自然语言描述,AI图像生成工具就会自动生成符合描述的图像。Bing和Office也计划整合ChatGPT,实现对话式搜索和内容生成的新体验。百度已经将大模型用于行业智能解决方案上。为更好地适配不同行业的任务和提升任务精度,百度的文心大模型使用行业特有的知识与数据对模型进行定制,目前已经发布了11个行业大模型,促进大模型的应用落地。联想借鉴大模型背后的基础性算法,将小样本学习应用到基于计算机视觉的产品缺陷检测当中,提升了质检系统对新产品和新产线的快速迁移能力;此外,联想还将强化学习技术和人机协作的理念应用到供应链优化当中,使得供应链在剧烈变化的环境中,不断提升韧性。
大模型的开发、训练、部署、推理为云计算业务的进一步发展创造了新的机会,因为大模型所需的海量计算资源只有云侧才能提供。云平台可以为大模型开发者提供全栈的硬件、软件、工具和服务,以便大数据的存储和大模型的训练。训练好的大模型可以部署在云平台上,提供给终端用户调用。此外,大模型带来的社会问题也需要解决,如AIGC带来的一本正经地说瞎话、真假内容泛滥、人类难以鉴别等,解决好这些问题也会有巨大的商业价值和社会价值。
值得注意的是,大模型的变现模式还不是十分清晰。例如,谷歌担忧引入对话式搜索会影响用户点击搜索结果页面的广告,从而直接影响广告收入。新技术冲击旧模式的同时,也可能会带来新的商业机会。正如Open AI首席执行官Sam Altman指出的“数据飞轮”理念,即使用更多数据可以训练出更好的模型,吸引更多用户,从而产生更多用户数据用于训练,形成良性循环。
CCCF:联想将在AI新范式和大模型普及中发挥怎样的作用,会有哪些行动呢?
芮勇博士:长远来看,很有可能AI新范式(large models + in-context learning)与旧范式(small models + fine-tune)共存,或是相互结合,而不会单个范式一统天下。联想将充分发挥“端-边-云-网-智”新IT架构的优势,来支撑新旧范式的结合与转换。联想提出的新IT架构,既致力于推动自身的智能化变革,也着眼于赋能各行各业的智能化转型。从刚才我们对新旧范式的分析可以看出,AI模型对运行环境需求越来越高,例如云-边-端的高度协同,异构计算与负载均衡、设备之间的互联互通、数据安全与隐私保护、模型本身的伸缩性与扩展性等等。联想在这些方面都有着深厚的技术积累,新IT架构在AI新范式加速智能化变革的过程中也会继续发挥重要作用。
除了基础架构之外,联想还在考虑AIGC技术在产品和业务里的应用。比如,在智能设备中对跨模态的生成模型进行优化和裁剪,使之能加载到手机或平板上实现个性化内容生成。在智能解决方案方面,我们考虑把AIGC用于新产品营销与新客户触达。目前,大模型还没有与知识有效结合,我们正在研究数据驱动与知识驱动相结合的方法,即Hypid Learning来改进大模型的不足。另外,在大模型落地过程中,也需要彻底解决对环境变化或是新领域、新任务的自适应问题,即Adaptive Learning,这些都是联想人工智能的探索方向。
[声明]
该文未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。如需转载,请通过向CCFvoice公众号后台申请并获得授权。联想集团已获官方授权。