21世纪经济报道记者杨清清 北京报道
作为当前人工智能发展的重要方向,预训练大模型已成为AI领域的技术新高地。
据不完全统计,目前AI大模型已经吸引了包括谷歌、微软、英伟达、华为、百度、阿里等科技巨头以及多个科研机构参与其中,各家大模型的参数量级也从千亿、万亿,迅速提升至10万亿级别。
不过,在AI大模型热度持续攀升的过程中,各家的布局重点有所不同。近日,鹏城实验室与百度联合召开发布会,正式发布双方共同研发的鹏城-百度文心(模型版本号:ERNIE 3.0 Titan)。据介绍,该模型参数规模达到2600亿,是目前全球最大中文单体模型,也是全球首个知识增强千亿大模型。
“如果将这个模型的特点总结为一条,就是知识增强。”在接受包括21世纪经济报道在内的媒体采访时,百度集团副总裁吴甜分析称,“同时,在融入知识的基础上,该模型也会进行跨语言学习、跨模态学习,从而体现出学习效率更高、学习能力更强的优势。”
知识增强大模型
鹏城-百度文心知识增强大模型的最大特点,在于其在学习过程中融入知识,进而实现将海量知识与海量数据进行同时融合的学习。
在吴甜看来,知识带来的优势在于学习效率更高。据介绍,鹏城-百度文心知识增强大模型在包括机器阅读理解、文本分类、语义相似度计算等60多项任务上取得最好效果,并在30余项小样本和零样本任务上刷新基准。
“这说明模型本身的效果足够好。”吴甜分析称,“我们看到那60多个任务是各种各样的不同任务,体现出模型具备较好的通用性。同时在30多项小样本、零样本学习上,模型也取得了更好效果,意味着它的泛化能力更强,在看到不同场景和任务的时候可以通过少量数据标记就能实现良好效果。”
需要注意的是,早在今年1月,谷歌便发布了全球首个万亿级模型Switch Transformer,参数规模达到1.6万亿。11月,阿里巴巴达摩院公布的多模态大模型M6的参数规模更是跃升至10万亿级别,成为全球最大的AI预训练模型。
相较之下,鹏城-百度文心知识增强大模型的参数规模仅2600亿,如何看待这样的规模量级?
吴甜解释称,当前AI预训练大模型分为“单体模型”和“混合专家模型”两类。所谓单体模型也是稠密模型,具备稠密参数,将所有数据中习得的规律都记录在一张网络内,使用时网络上的任何点位都会被计算到,鹏城-百度文心知识增强大模型正属于此类。
“混合专家模型”则是稀疏模型,是由多个不同网络通过门控机制集成在一起,在单次计算中可能只会使用部分子网络的参数。目前,两类大模型也代表了不同的AI预训练的技术方向。
“目前来说,我们能看到最大发布的单体模型是千亿量级的,市面上的万亿、十万亿等都是混合专家模型。”吴甜表示,“到现在还没有公开研究表明,万亿乃至十万亿的混合专家模型效果能够媲美千亿的单体模型,这个问题本身还值得进一步继续研究。”
降低AI应用门槛
大模型近年来受到追捧,并非没有原因。
本轮的第三次人工智能浪潮中,伴随着高性能计算机、因特网、大数据、传感器的普及,以及计算成本的下降,“机器学习”随之兴起。所谓机器学习(Machine leaning),是指让计算机大量学习数据,使它可以像人类一样辨识声音及影像,或是针对问题做出合适的判断。
其中,最受关注的莫过于深度学习,亦即透过模仿人脑的“类神经网络”(Neural network)来学习大量数据的手法。深度学习的演进与发展则源自大数据、大算力、大模型三大支撑。
在吴甜看来,从某种程度而言,这三大支撑要素也构成了深度学习及人工智能技术的瓶颈所在,包括大量的数据标注背后高昂的成本、数据标注本身的天花板等都是难题所在。与之相对应的,预训练技术则解决了让算法在海量无标记数据中进行自监督学习,从而带来技术上的突破与变化。
“随着预训练技术的突破,几乎可以认为所有任务现在都是基于预训练机制实现全面的效果提升。”吴甜解释称,“而通过大算力平台支撑,实现时间、模型体积、参数规模的增长,进而便形成当前一系列大模型的诞生。”
从这个角度而言,预训练大模型具备相当的价值。“大模型对于产业而言,其意义在于降低了AI应用门槛。”吴甜表示。
在吴甜看来,目前行业内的AI技术应用存在两大困难。首先在于数据标注非常昂贵,甚至在特定场景内无法完成大批量批注,另一方面在行业应用中,行业自身的知识积累至关重要。预训练大模型的推出,则能够在不具备大量数据标注的同时保证了技术基础底座,叠加行业“基本功”便能够实现AI技术的快速落地。
据介绍,目前百度文心通过百度飞桨平台陆续对外开源开放,并已大规模应用于百度搜索、信息流、智能音箱等互联网产品,同时通过百度智能云赋能工业、能源、金融、通信、媒体、教育等各行各业。