近日,清华大学人工智能研究院知识智能研究中心、北京智谱华章科技有限公司联合发布了《2020 年人工智能几个重点领域顶级国际学术会议分析报告》(以下简称《报告》)。依托于科技情报大数据挖掘与服务系统平台 AMiner,《报告》主要从论文、作者、国家、机构等多个维度,详细展示了 2020 年机器学习、计算机视觉等人工智能几个重点领域顶级国际学术会议的前沿研究成果及其特征。
来源 清华大学人工智能研究院知识智能研究中心
原标题:
《2020 年人工智能几个重点领域顶级国际学术会议分析报告》
作者:张淼 等
一、AI顶会NeurIPS、CVPR与ECCV 论文前三
报告所研究的人工智能这几个重点领域的国际顶会在 2020 年共计收到42683 篇论文投稿,具体分布情况如下图所示。从单个会议投稿量看,神经信息处理系统年会 NeurIPS 在这 10 个会议中所接收到的论文投稿量最多,为 9454篇论文,同时也在机器学习领域三个会议中居首。
其次是计算机视觉与模式识别会议 CVPR 和欧洲计算机视觉会议 ECCV,分别收到 6656 篇和 5025 篇论文投稿。相比而言,知识发现和数据挖掘会议 KDD 和信息检索特别兴趣小组 SIGIR所收到的论文投稿量较少,均不足 2000 篇。从子领域来看,机器学习、计算机视觉、自然语言处理三个子领域会议收到的论文投稿总量较多,反映出这些领域的论文研究成果丰硕。
▲人工智能几个重点子领域顶级国际学术会议 2020 年的投稿量情况
录取率方面,报告所研究的人工智能这几个重点领域 10 个国际顶会的论文平均录取率为22.1%。各个会议的具体论文收录情况如下图所示。
从论文录取数量来看,机器学习领域 NeurIPS 会议的论文收录数量最多,为1900 篇;计算机视觉领域的 CVPR 和 ECCV 的论文收录数量次之,分别位于第二、第三位。这反映出,计算机视觉和机器学习领域高质量研究成果数量较多。
从论文收录率来看,信息检索领域的会议SIGIR论文录取率最高,该会议论文录取率为 28.8%。相比而言,作为人工智能领域的首个国际学术性会议,经典 AI 领域的国际人工智能联合会议IJCAI的论文录取率在2020年的这10个国际顶会之中最低,为12.50%,且相比 IJCAI 2019 年的 17.9%录取率大幅下降,同时也是 IJCAI 会议自 2013 年以来的最低论文接受率,由此可见,随着 IJCAI论文审稿愈来愈严格,论文被该会议接受变得越来越难。
在机器学习领域,NeurIPS 会议的论文接受量虽然最多,但是该会议的论文收录率却最低。在计算机视觉领域,CVPR 会议论文的收录率低于 ECCV。在自然语言处理领域,ACL 与 EMNLP 两个会议的收录率差别不大;值得一提的是,在 EMNLP2020 会议中,中国的论文接受率只有 13.2%,远低于大会的平均水平,而英国、新加坡和丹麦在该会议中有超过 30%的接受率,美国也有 27%的接受率,可见中国学者论文的接受率还有待提高。
▲人工智能几个重点子领域顶级国际学术会议 2020 年的论文录取情况
二、深度学习热度高,GNN、RNN算法最火爆
基于上文所述的人工智能几个重点领域 10 个顶级国际学术会议所收录的论文,通过对会议论文的标题、摘要和自带关键词进行统计分析和文本聚类,运用TF-IDF 算法对所研究时段内的主题相关论文数量进行计算,获取论文数量 TOP20 的热点关键词并制作词云图,得到人工智能几个重点领域的近五年(2015-2020年)来的主题研究热点。
1、机器学习
综合机器学习领域三个顶级会议(ICLR、NeurIPS、ICML)的论文研究点,发现近年来机器学习最热门的研究技术点是深度学习(Deep Learning)或深度神经网络(Deep Neural Networks)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning),尤其是深度学习中的生成式对抗网络(GAN,Generative Adversarial Networks)与循环神经网络(Recurrent Neural Network, RNN))两大算法模型,相关论文量占比达 14.8%。此外,还都较多涉及了梯度下降(Gradient Descent )方法。
除了以上共同的研究热点,ICLR 与 ICML 都较多研究了深度学习中的对抗样本(Adversarial Examples)问题。ICLR 与 NeurIPS 会议论文都较多研究了深度学习中的卷积神经网络(Convolutional Neural Networks,CNN)算法。而 ICML和 NeurIPS 两个会议的论文都较多研究了贝叶斯优化 (Bayesian Optimization)、变分推断(Variational Inference)、高斯过程(Gaussian Process, GP)、主动学习(Active Learning)、在线学习(Online Learning)等技术点。
就单个会议而言,ICLR 会议论文还较多研究了学习表征(Learning Representations)、迁移学习(Transfer Learning)、无监督学习(UnsupervisedLearning)等方法。ICML 会议论文还涉及了少量的差分隐私(Differential Privacy)、非凸优化(Nonconvex Optimization)方法,以及结构化预测(Structured Prediction)问题;NeurIPS 会议论文还较多研究了样本复杂度(Sample Complexity)等问题。
▲机器学习三大顶会会议论文近年研究热点词云图
2、计算机视觉
综合分析 CVPR、ECCV 两个计算机视觉领域顶级国际会议的研究点发现,目标检测(Object Detection)与语义分割(Semantic Segmentation)是计算机视觉领域近五年(2015-2020)的最热门研究点,相关论文量占比 8%。此外较热门的研究点还有行为识别(Action Recognition)、行人重识别(Person Re-Identification)、人体姿态估计(Human Pose Estimation)、图像分类(Image Classification)等问题,所采用的手段较多是深度学习(Deep Learning)及其代表算法之一卷积神经网络(Convolutional Neural Networks)等。
相对而言,CVPR 会议论文还较多研究了视觉问答(Visual Question Answering)、人脸识别(Face Recognition)等问题,以及生成式对抗网络(Generative Adversarial Networks)的模型算法;ECCV 会议论文还较多研究了人脸对齐(Face Alignment)、视频分类(Video Classification)、图像描述(ImageCaptioning)、无监督领域自适应(Unsupervised Domain Adaptation)等技术问题,以及无监督学习(Unsupervised Learning)方式。
▲计算机视觉顶会 CVPR 与 ECCV 会议论文近年研究热点词云图
3、自然语言处理
综合分析自然语言处理领域两个国际顶会 ACL 和 EMNLP 的论文研究热点可知,神经机器翻译(Neural Machine Translation)在自然语言处理领域 2015-2020年的研究热度遥遥领先,其他较热的研究问题还有词嵌入(Word Embeddings)、智能问答(QuestionAnswering)、语义解析(Semantic Parsing)、实体识别(EntityRecognition)、文本分类(Text Classification)、关系抽取(Relation Extraction)、自然语言推理(Natural Language Inference)等技术点,较热门的研究对象是社会媒体(Social Media)。
除此之外,就单个会议而言,ACL 会议论文还较多研究了统计机器翻译(Statistical Machine Translation)、领域自适应(Domain Adaptation)、依存分析(Dependency Parsing)等问题,较热门的研究方法是深度学习(Deep Learning)以及深度学习之中的循环神经网络(Recurrent Neural Network)算法等。EMNLP会议论文还较多研究了包括语言模型(Language Modeling)、语义角色(Semantic Role)、语义分析(Semantic Analysis)等问题,方法较多是关于深度强化学习(DeepReinforcement Learning)的。
▲自然语言处理顶会 ACL 与 EMNLP 论文近年研究热点词云图
4、经典AI领域
通过分析国际顶会 IJCAI 论文发现,经典 AI 领域 2015-2020 年会议论文之中最热门的研究技术点主要为强化学习(Reinforcement Learning)、深度学习(Deep Learning)及其中的卷积神经网络(Convolutional Neural Networks)与循环神经网络(Recurrent Neural Network)算法,以及迁移学习(Transfer Learning)等,较多涉及了问答集编程(Answer Set Programming)、词嵌入(Word Embeddings)、矩阵分解(Matrix factorization)等研究问题,而社交网络(Social Networks)是这些论文较热门的研究对象。
▲经典 AI 领域国际顶会 IJCAI 近五年会议论文研究热点词云图
5、数据挖掘
人工智能数据挖掘领域知名的国际顶级会议是 KDD。通过分析 KDD 会议论文数据,发现数据挖掘领域研究热点近年来主要是以大数据(Big Data)、社交网络(Social Networks)、社交媒体(Social Media)、异构信息网络(Heterogeneousinformation network)等为研究对象,通过采用机器学习(Machine Learning)之中的深度学习(Deep Learning)、多任务学习(Multi-Task Learning)、主动学习(Active Learning)等方法,关注涉及了数据科学(Data Science)、推荐系统(Recommendation Systems)、异常检测(Anomaly Detection)、显示广告(Display Advertising)、点击率预测(Click-Through Rate Prediction)、高效算法(EfficientAlgorithm)等问题。
▲数据挖掘领域国际顶会 KDD 近五年会议论文研究热点词云图
6、信息检索与推荐领域
据信息检索与推荐领域国际顶级会议 SIGIR 论文数据显示,该领域近五年(2015-2020)科研论文主要是针对社交媒体(Social Media)、电商搜索(eCommerce Search)、社会网络(Social Networks)等研究对象,研究关于信息抽取(Information Retrieval)、网络搜索(Web Search)、问答(QuestionAnswering)、推荐系统(Recommendation Systems)、查询性能预测(Query PerformancePrediction)等热点问题,所采用的较热门技术方法包括知识图谱(KnowledgeGraphs)、知识库(Knowledge Bases)、主动学习(Active Learning)、弱监督(Weak Supervision)等技术点。
▲信息检索与推荐领域国际顶会 SIGIR 近五年会议论文研究热点词云图
二、最佳论文,美国一骑绝尘,中国第三
本年度人工智能几个重点领域国际顶会共计评选出 13 篇最佳论文,截至本报告时段总引用量达到 999 次。通过命名消歧和信息抽取等大数据分析和挖掘技术,分析发现这些顶会最佳论文具有如下特征:
在 2020 年人工智能会议中,获得最佳论文奖项的论文共计 13 篇,参与作者共计 51 人。从所属国家来看,最佳论文的作者分别来自美国、中国、英国、意大利、新加坡以及以色列。其中美国获得会议最佳论文的作者有 35 位,占比最高,达到 68.6%,分别来自于斯坦福大学、加州大学伯克利分校、普林斯顿大学等高校以及 OpenAI、谷歌研究等企业研究部门,数量远超其他国家。其次是中国获得顶级学术会议最佳论文的作者数量占比达 9.8%,位于第三。
▲人工智能几个重点领域国际顶会最佳论文作者所属国家分布
本年度人工智能几个重点领域顶会最佳论文呈现出跨国跨机构多位作者合作的特征:在被授予的 13 篇最佳论文中,没有论文是由单一作者独立完成,全部都是由不同国家或不同机构的多位学者合作而完成的。在这些合作论文之中,论文作者数量最少为 2 位,最多达 31 位,详细信息如表 5 所示。例如,中国北京理工大学硕士生 Kaixuan Wei 为一作的论文Tuning-free Plug-and-Play ProximalAlgorithm for Inverse Imaging Problems是他与本校计算机学院教授 Ying Fu(付莹)、Hua Huang(黄华),以及剑桥大学博士后 Jingwei Liang(梁经纬)、Aviles Rivero Angelica 等 6 位学者合作完成的。
告所研究会议论文的发布方主要以各个国家和地区的大学为领先机构。例如,在今年 CVPR论文作者量排名前十的机构之中,中国高校占据了七席,包括清华大学、上海交通大学、北京大学、浙江大学、中科大、北航、西安电子科技大学,其中,来自清华大学的作者高达 340 位,位列第一。
在机器学习领域,2020 年的 ICLR、ICML、NeurIPS 三大国际顶级会议中,论文收录总量 TOP10 的机构是谷歌、麻省理工学院、斯坦福大学、加州伯克利大学、微软、卡内基梅隆大学、Deep Mind 、普林斯顿大学、清华大学以及牛津大学,如下图 所示。其中,谷歌被收录论文总数最多,为 347 篇,位居榜首。其次是麻省理工学院,论文被收录 197 篇,斯坦福大学论文被收录量排名第三,为185 篇。国内清华大学论文被收录 86 篇,位居第九,也是唯一上榜的中国机构。
▲机器学习国际三大顶会 2020 年论文被收录总量 TOP10 机构
从单个会议看,ICLR、ICML 和 NeurIPS 论文收录最多的机构都是以谷歌居首,并且除了中国的清华大学在 ICLR 会议的论文收录量位于第三之外,其他 AI顶会的前三席位几乎都被美国顶尖机构占据。这反映出美国机构在人工智能机器学习领域具备全球领先的创新实力。
▲机器学习国际三大顶会论文收录前三机构
具体而言,在 NeurIPS 2020 会议上,谷歌、麻省理工学院和斯坦福大学分别以 202、109 和 104 篇论文成为论文被收录量最多的前三机构,清华大学位列第七,有 63 篇,北京大学有 37 篇入选,排在第 20 位。
▲NeurIPS2020 论文收录量前 20 的机构
在经典 AI 领域的国际顶会 IJCAI 2020 上,就被收录论文的所属机构而言,中国科学院位居榜首,有 42 篇论文入选;中国科学院大学以 34 篇论文排名第二;浙江大学入选 26 篇论文,排名第三。在论文收录机构前 15 名中,中国机构占据 12 席,
▲IJCAI2020 会议论文入选机构前 15 名
智东西认为,顶级国际学术会议是全球人工智能学术交流和最高成果展示的平台。中国人工智能学者及其成果频频出现在这些顶会的背后,体现出中国 AI 技术实力的不断提升。作为业界顶会的重要参与者,我国在人工智能学术领域与美国等强国之间的差距逐渐缩小,中国 AI 学者正不断提升在国际学术圈中的影响力和话语权,这也将为我国人工智能发展带来新的机遇。