把握计算机视觉(Computer Vision)最新的发展方向和技术成就,CVPR 无疑是最好的途径之一。
这个计算机视觉领域的顶会将于2个月后在美国长滩召开,现已公开其最新论文接受数据:5165 篇有效提交论文,1300 论文被接收,接收率接近 25.2 %。2019 年 CVPR 的这些数字刷新了自己的记录,预示着这个领域仍在蓬勃生长,也让不少从业人员为此感到兴奋。
但是,近日一场以 CVPR 论文分享为主题的业内讨论会上,如何继续创新计算机视觉技术却成了一些业内学者关心的问题,颇有顶会论文一片欣欣向荣背后,计算机视觉领域创新瓶颈将至的意味。
比如说在刷数据集。
“这究竟是一个好的出发点,还是使我们的研究和视野都局限在了数据集的范畴内?”在微软亚洲研究院举办的 CVPR2019 论文分享会上,北京大学副教授刘家瑛将这个问题抛给了参与讨论的业内学者和台下正期待在这个领域有所建树的同学们。
(来源:微软)
近年来,深度学习的发展呈现出与数据集演化愈发紧密的相关性,以致于我们看到在计算机视觉领域,越来越多的团队所带来的最新研究都基于纯刷数据集。有人将这种现象戏称为“ Dataset CV ”。
这样带来的一个可能后果是,即使像 CVPR 这样的顶会继续保持论文数量的高度增长,但计算机视觉研究出现高度同质化也将在所难免。
而且,简单的模型训练和调参都是非常容易自动化的,这个事实对学术界后续如何培养具有竞争力的学生提出了严峻考验:怎么样培养学生理解计算机视觉的本质问题,能设计新算法,写出高质量代码,实现计算机视觉技术落地,而不仅仅是工具化地只会调参数。
中山大学副教授梁小丹则直言,依赖数据集不是一条“正途”。“虽然我做了很多数据集,但我觉得因为它会限制我们对算法的想象,大家就不会花更多精力去思考人类为什么可以终身学习、可以从小样本推断大样本这些真正的智能”,她说。
梁晓丹表示,大量数据对工业界来说是好事,但在学术界是对创新力的极大限制,所以希望研究者不再刷数据集,可以通过比如对物理世界的仿真、自主挖掘信息等方式做更好的研究。
图丨参与讨论的嘉宾,从左至右:刘家瑛、梁小丹、赫然、刘、朱军、马惠敏、童欣(来源:微软)
但数据的重要性其实不容否认,因为机器学习肯定要从具体的数据中学习。
从这个角度出发,中科院自动化所研究员的赫然认为,其中还有一个问题是,现在主流的、有影响力的数据集大多是国外建立的,因此,国内建立能推动领域向前发展的、具有国际影响力的数据集是非常重要的一个方面。另外,他提到,类似于清华大学朱军团队正在从事的贝叶斯深度学习研究,有望会提供更好的解决方案,让更多的研究从数据的限制中解放出来,让机器可以获得抽象的学习范式。
而由刷数据集对计算机视觉创新讨论延伸开来,几乎所有人都好奇的一件事是,下一个像深度学习这样的图灵奖级别的方向在哪?
众所周知,最新一届的图灵奖颁给了深度学习“三巨头”蒙特利尔大学教授 Yoshua Bengio、多伦多大学名誉教授 Geoffrey Hinton、纽约大学教授 Yann LeCun 获得。但在知乎上,一个热门讨论话题提到,往往图灵奖颁给哪个领域,哪个领域就开始走向寒冬。
事实上,2019 年已经有一些产业界的 AI 方向在转冷,此前也有人质疑,AI 的火热是不是一个泡沫。
图丨深度学习相关arXiv论文的演变趋势(来源:麻省理工科技评论)
对此,清华大学教授朱军表示,技术发展的起伏是好事,“寒冬”和“回归”都是正常的,因为研究发展到一定阶段的时候就会发现技术的瓶颈,研究者会去探索其它的路径,因此应该积极地看待这个问题。
“从技术本身来看,其实大家已经发现深度神经网络能解决一些问题,也有很多问题不能很好解决。10年、11年的图灵奖都和统计学习有关,后来它的光芒被深度神经网络掩盖了很多。但是现在看来,贝叶斯方法也有优势,比如在小样本学习、不确定性推理等方面,同时,将两者融合的贝叶斯深度学习受到越来越多的关注”,他说。
清华大学副教授、中国图像图形学会副理事长兼秘书长马惠敏则提到,这次图灵奖的三位获得者,他们在神经科学领域有着很深的理解和造诣,而视觉领域的老祖宗马尔,同时是计算机和心理系的教授,怎么把人类学习方式与计算机视觉结合一定是一个新的爆发点,这一方向也一直呈现上升的趋势。另外,类似傅里叶变换等被认为是传统的方法,其实过了很多年也还是非常有效的研究工具,“我觉得不存在冷的问题,降温是因为产业界对人工智能的期待过高,作为科学家和学者,我们要做的是脚踏实地”。