IPRdaily,连接全球百万知识产权精英
全球影响力的知识产权产业媒体
#本文仅代表作者观点,不代表IPRdaily立场#
来源:IPRdaily中文网(iprdaily.cn)
IPRdaily导读:据国家工业信息安全发展研究中心知识产权所(工信部电子知识产权中心)发布的《2020人工智能中国专利技术分析报告》显示,截止到2020年10月底,我国自然语言处理技术领域专利共有48137件,2019年专利申请数量为11342件,是2000年专利申请量的118倍,占人工智能年度专利总申请量的5.65%。2020年度(截止到2020年10月底)自然语言处理技术领域专利申请量为7910件。自2015年以来,自然语言专利技术申请量增长速度明显加快,说明自然语言专利技术专利布局正处于活跃时期,是创新主体关注的重点。
“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。”
- A. M. Turing,Computing Machinery and Illigence,Mind Vol.59,1950.
自然语言处理( Natural Language Processing)作为人工智能三大关键技术之一,从20世纪40年代算起,已经有70多年的历史了,随着信息网络时代的到来,已经成为现代语言学中一个颇为引人注目的学科,并且已经广泛应用于情感分析、问答系统、自动摘要、机器翻译、语音识别、聊天机器人、市场预测、文本分类、拼写检查等领域。
那么,究竟什么是自然语言处理呢?
自然语言处理是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
自然语言处理为什么重要?
比尔盖茨曾说“语言理解是人工智能领域皇冠上的明珠”,自然语言处理有助于打破人与机器之间的障碍,改善人机交流的效率和生产力。在人工智能出现之前,机器只能处理结构化的数据,例如Excel里的数据;但是网络中大部分的数据都是非结构化的,例如:文章、图片、音频、视频等,在非结构数据中,文本的数量是最多的,虽然没有图片和视频占用的空间大,但是文本的信息量是最大的,为了能够分析和利用这些文本信息,我们就需要利用NLP技术,让机器理解这些文本信息,并加以利用。自然语言处理就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。
2020年的自然语言处理技术专利发展现状
据国家工业信息安全发展研究中心知识产权所(工信部电子知识产权中心)发布的《2020人工智能中国专利技术分析报告》(以下简称“报告”)显示,截止到2020年10月底,我国自然语言处理技术领域专利共有48137件,2019年专利申请数量为11342件,是2000年专利申请量的118倍,占人工智能年度专利总申请量的5.65%。2020年度(截止到2020年10月底)自然语言处理技术领域专利申请量为7910件。自2015年以来,自然语言专利技术申请量增长速度明显加快,说明自然语言专利技术专利布局正处于活跃时期,是创新主体关注的重点。
图2我国人工智能自然语言处理领域专利申请量年度变化趋势
(受公开滞后影响,2020年专利数据公开不完整,统计数据截止至2020年10月底)
自然语言处理基础技术包括知识图谱、词法分析、句法分析、语义分析和语言模型,基于对全球专利申请态势的检索,如下图所示,知识图谱专利申请量占比最高,为26%,其次为词法分析、句法分析和语言模型,占比为19%,语义分析的申请量占比最低,为17%。(数据来源:《产业专利分析报告-人工智能关键技术(第68册)》)
图3 全球自然语言处理基础技术各技术分支占比分析
从全球技术来源国家或地区角度分析,如下图所示,中国在申请总量上较美国存在一定差距,但是高于日本、韩国和欧洲,在知识图谱方向的申请量与美国已经没有差距,由于中国的句法分析和语义分析起步晚,目前正处于技术积累时期,因此在句法分析和语义分析方向的申请量与美国的差距还比较明显。
数据来源:《产业专利分析报告-人工智能关键技术(第68册)》
针对知识图谱技术,笔者在国家知识产权局专利检索及分析网站进行了检索,如下图所示的检索结果显示,在知识图谱技术领域,北京百度网讯科技有限公司、平安科技(深圳)有限公司、科技新闻(深圳)有限公司、北京明略软件系统有限公司以及珠海格力电器股份有限公司分别排名前五。其中,百度网讯以392件专利量排名第一,平安科技以187件专利量排名第二,科技新闻以151件专利量排名第三,明略科技以83件专利量排名第四,珠海格力以81件专利量排名第五。
图4
针对词法分析技术,笔者在国家知识产权局专利检索及分析网站进行了检索,如下图所示的检索结果显示,在词法分析技术领域,北京邮电大学、科技新闻(深圳)有限公司、北京航空航天大学、中兴通讯股份有限公司、华为技术有限公司分别排名前五。其中,北京邮电大学以57件专利量排名第一,科技新闻以33件专利量排名第二,北京航空航天大学以21件专利量排名第三,中兴通讯股份有限公司、华为技术有限公司以20件专利量并列第四。
图5
针对句法分析技术,笔者在国家知识产权局专利检索及分析网站进行了检索,如下图所示的检索结果显示,在句法分析技术领域,苏州大学、北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司 、昆明理工大学、阿里巴巴集团控股有限公司、科技新闻(深圳)有限公司、中国科学院自动化研究所排名前五。其中,苏州大学以37件专利量排名第一,百度网讯以31件专利量排名第二,百度在线、昆明理工大学以28件专利量并列第三,阿里巴巴集团控股、科技新闻、中国科学院自动化研究所以23件专利量并列排名第五。
图6
针对语义分析技术,笔者在国家知识产权局专利检索及分析网站进行了检索,如下图所示的检索结果显示,在语义分析技术领域,百度在线网络技术(北京)有限公司 、科技新闻(深圳)有限公司、北京百度网讯科技有限公司、阿里巴巴集团控股有限公司、平安科技(深圳)有限公司分别排名前五。其中,百度在线以198件专利量排名第一,科技新闻以163件专利量排名第二,百度网讯以127件专利量排名第三,阿里巴巴集团控股以101件专利量排名第四,平安科技以85件专利量排名第五。
图7
针对语言模型技术,笔者在国家知识产权局专利检索及分析网站进行了检索,如下图所示的检索结果显示,在语言模型技术领域,北京百度网讯科技有限公司、科技新闻(深圳)有限公司、平安科技(深圳)有限公司、百度在线网络技术(北京)有限公司 、微软公司分别排名前五。其中,百度网讯以169件专利量排名第一,科技新闻以148件专利量排名第二,平安科技以121件专利量排名第三,百度在线以114件专利量排名第四,微软公司以110件专利量排名第五。
图8
根据自然语言处理技术的专利检索情况,如下图所示,人工智能、自然语言处理、神经网络、机器学习、自然语言等关键词成为自然语言处理技术相关专利中的创新词云。
图9 :自然语言处理技术相关专利中的创新词云
使用工具:智慧芽专利数据库,智慧芽英策
从综合水平来看,专注于自然语言处理的公司相当多,根据2019《互联网周刊》&eNet研究院选择排行,国内自然语言处理领域的代表性企业如下图所示,包括被称为人工智能领域“黄埔军校”的微软亚洲研究院,专注于输入法的搜狗,专业从事语音研究的科大讯飞、云知声、思必驰、捷通华声、出门问问等企业,也包括深入大数据挖掘的达观数据、明略科技等企业。
图10
展望未来
随着互联网的普及和海量数据和信息的涌现,自然语言处理作为人工智能的核心技术,在人们的工作、学习、生活中扮演着越来越重要的角色,并将在社会发展和科技进步的过程中发挥越来越重要的作用;一场人机关系变革正在进行中,自然语言处理已经迎来了最好的发展时代,旨在让计算机真正理解我们的自然语言处理技术,正在把人工智能推向一个新的高度能理解、会思考的认知智能,这让我们能够对未来有更大的想象空间。
那么NLP技术在实际工作中是如何在不同领域发挥其功用呢?笔者咨询了明略科技集团信息检索实验室主任梁吉光博士,梁吉光博士表示:
关于NLP的落地,不同于图像识别、语音认识能感知智能的落地,NLP属于认知智能,落地门槛稍高。NLP的应用主要有两种:通用型技术应用和领域型技术应用。通用型技术应用主要包括语法分析、信息检索、文本分类、情感分析、人机对话等任务,领域性技术应用则与应用场景紧密相关,如安全领域的舆情监控、金融领域的智能风控、营销领域的智能营销、智能家居领域的智能音箱等。
目前NLP技术已经有了一定发展,并逐步在安全、金融、互联网、智能家居设备、电子产品等领域开始落地应用,那么国内NLP领域的发展情况究竟如何,已经具备了哪些优势?未来NLP技术发展又会面对哪些技术挑战呢?针对这些问题,梁吉光博士回复说:
国内自然语言处理研究一直走在国际前列水平,总体来讲位居世界第二,仅次美国。从大环境角度,国内自然语言处理技术的飞速发展得益于中国四十年改革开放,为技术与国际接轨提供了温床。人工智能落地包括四要素:场景、数据、算法、算力。同样,自然语言处理技术的发展也离不开这四大要素。工业界从不缺场景,缺的是能适用于场景的技术。在信息爆炸时代,数据越来越多,各种训练集测试集涌现;算法越来越复杂、越来越先进,尤其以深度神经网络为代表的的深度学习架构,预训练模型更是将自然语言处理推向了新的范式;计算能力也越来越高,提供了大规模计算的可能性,从这一角度,数据“大”、算法“优”,算力“快”是推动自然语言处理发展的直接原因。
自然语言处理,让人机交互不再遥远;深度学习(DL),让语言解析不再是智能系统的瓶颈。基于深度学习的NLP技术已经成为时下最主流的研究方法,并在在NLP领域的研究中取得一个又一个突破。DL最早突破的是语言模型,解决了传统语言模型数据稀疏的问题。随后,以CNN、RNN、LSTM为代表的深度神经网络模型对自然语言词序列的特征提取发起了进阶。再到当下“预训练+微调”这一NLP新范式更是横扫整个领域,尤其以GPT、BERT模型为优秀代表频频刷新SOTA。这一新范式结合下游任务,将NLP推向了新的研究丰碑。
对于未来NLP技术发展将会面对的技术挑战方面,梁博继续补充道:
(1)“大力出奇迹”有瓶颈
当下基于深度学习方法的NLP技术取得了卓越的效果,但这类方法基于“大”数据、“大”模型,数据动则TB量级,模型参数更是达到千亿级别,着实卷,没有最大只有更大。此外,此类算力多不可复现,且局限于财力雄厚玩家。卷到何时算了?卷不动的时候,或者大力已不能解决问题的时候,需要考虑技术突破方向。
(2)不可解释性
自深度学习模型席卷NLP领域以来,其不可解释性一直是研究者的关注点之一。这种不可解释性也注定无法将模型很好地应用到依赖于过程解释结果的领域,如法学、医疗、金融等领域。
从蒸汽时代到电气时代,再到21世纪的信息时代,科技的发展推动着时代的进步,而人工智能正成为推动人类进入智能时代的决定性力量。当今的宇宙中人类是孤独的,但在不久的未来,我们期待自然语言处理这一关键技术可以让冰冷机器变得有温度,实现人机同行的美好愿景。