展会信息港展会大全

微美全息科学院:多种基于卷积神经网络的语义分割模型
来源:互联网   发布日期:2022-04-09 10:09:34   浏览:10437次  

导读:图像分割基本上可以分为两种类型:语义分割和实例分割。近些年,基于CNN的语义和实例分割的研究得到了大量的关注。作为纳斯达克上市企业 微美全息US.WIMI 旗下研究机构 微美全息科学院 的科学家们详细探讨了关于多种基于卷积神经网络的语义分割模型。以下将...

图像分割基本上可以分为两种类型:语义分割和实例分割。近些年,基于CNN的语义和实例分割的研究得到了大量的关注。作为纳斯达克上市企业“微美全息US.WIMI”旗下研究机构“微美全息科学院”的科学家们详细探讨了关于多种基于卷积神经网络的语义分割模型。以下将详细探讨一些先进的基于CNN的语义分割模型的体系结构细节。模型是根据使用的最重要的特征进行分类的。在每一个分类讨论的最后,还简要讨论了特定模型类别的优点和缺点。

1. 基于完全卷积网络

Long等人提出了完全卷积网络(FCN)来解决语义分割问题。他们使用了AlexNet、VGGNet和GoogleNe(这三个都是在ILSVRC数据上预先训练过的)作为基本模型。他们将这些模型从classifiers转变为稠密的FCN,方法是用1×1卷积层代替完全连接层,并附加一个通道数为21的1×1卷积来预测20个PASCAL VOC类和1个背景类的得分。

在FCN AlexNet、FCN-VGG16和FCN GoogLeNet中,FCN-VGG16在PASCAL VOC 2011验证数据集上的准确度最高。因此,作者选择FCN-VGG16网络进行进一步的实验。由于网络生成了粗糙的输出位置,作者使用双线性插值对粗输出32×进行上采样,使其像素密集。但是这种上采样对于详细的分割是不够的。因此,他们使用跳跃连接来组合预测层和VGG16丰富的下层特征,并将这种组合称为deep jet。图1显示了不同的deep jet:FCN-16s、FCN-8s和FCN-32s。其中FCN-8s在PASCAL VOC 2011中的表现最好。

图1.FCN32s, FCN16s, FCN8s的结构

FCN的主要变化有:基本模型VGG16、双极插值技术(用于对原始特征图进行上采样)和跳过连接(用于将低层和高层特征结合起来以进行细粒度语义分割),这些都有助于该模型达到最新的结果。

FCN只利用局部信息进行语义分割,但由于局部信息会使图像的全局语义上下文变得模糊。从整个图像中减少模糊的上下文信息是很有帮助的。

2. 基于Dialatation卷积

Dialated-Net:传统的CNN用于分类任务,会损失分辨率,不适合密集预测。Yu和Koltun引入了传统CNN的改进版本,称为dialated卷积或Dialated-Net,系统地积累多尺度上下文信息,以便在不损失分辨率的情况下更好地进行分割。Dialated-Net就像一个卷积层的矩形棱镜,不像传统的金字塔CNN。如图2所示,在不丢失任何空间信息的情况下,它可以支持指数扩展的感知域。

图2.(a) 1倍dialation,感知域3×3;(b) 2倍dialation,感知域7×7;(c) 4倍dialation,感知域15×15

基于dialation模型的优点是它有助于保持图像的空间分辨率以产生密集的预测。但是,使用dialation卷积将图像像素从其全局上下文中分离出来,这使得它很容易被误分类。

3. 基于自上而下/自下而上的方法

DeconvNet由Noh等人提出,具有卷积和反卷积网络。卷积网络在拓扑上与VGG16的前13个卷积层和2个完全连接层相同,除了最后的分类层。反卷积网络与卷积网络相同,但层次相反。同时,它还具有多个系列的反卷积层、反池化层和反整流层。卷积和反卷积网络的所有层都提取特征映射,除了反卷积网络的最后一层是用于生成像素级的概率图,它与输入图像的尺寸相同。在反卷积网络中,作者应用了反池化操作来重建初始激活大校此处,反池化操作是通过在卷积操作时存储的最大池索引来完成的。

为了使放大但稀疏的反池化特征图的密度更大,作者将单个输入激活与多个输出相关联,使用多个习得的滤波器完成类似卷积的操作。与FCN不同,作者将他们的网络应用于从输入图像中提取出的目标建议,并产生像素级预测。然后,将所有建议的输出集合到原始图像空间,对整个图像进行分割。这种基于实例的分割方法能够处理多尺度对象的细节,同时降低了训练的复杂度和训练的内存消耗。为了处理网络中的内部协变量偏移,作者在卷积层和反卷积层之上添加了批处理规范化层。DevNet的架构如图3所示。

图3. DeconvNet的网络结构

由于基于FCN的模型在最后层的上采样率很高,所以会产生粗输出。因此,不可能进行精细的语义分割。另一方面,基于自上而下/自下而上方法的模型使用逐渐增加的上采样率,从而获得更精确的分割。但在这种情况下,该模型还缺少全局上下文信息的整合。

4. 基于全局语境的方法

ParseNet:Liu等人提出了一种端到端结构的ParseNet,它是对全卷积神经网络的改进。为了更好的分割,作者添加了全局特征或全局上下文信息。图4显示了ParseNet的模型描述。在提取卷积特征映射之前,ParseNet与FCN相同。之后,作者使用了全局平均池化来提取全局上下文信息。然后,对池化后的特征图进行反池化操作,使其与输入特征图的大小相同。现在,将原始特征图和反池化后的特征图结合起来预测分类。作者将两个不同的特征图组合在一起,而这些特征图在规模和标准上都是不同的。为了使这种组合起作用,他们使用了两个L2规范化层:一个是在全局池化层之后,另一个是在从FCN中提取原始特征图之后。该网络在ShiftFlow,PASCAL context上达到了最先进的性能,在PASCAL VOC 2012数据集上接近最新水平。

图4. ParseNet的模型设计

虽然全局卷积的应用有助于提高精度,但它缺乏多尺度目标的尺度信息。

5. 基于感受野放大的方法

DeepLabv2和DeepLabV3:DeepLabv2和DeepLabV3的作者使用Atrous Special Pooling Pyramid(ASPP)修改了他们的网络,聚集多尺度的特征以更好地进行定位,并提出了DeepLabv2。图5显示了ASPP。该体系结构同时使用ResNet和VGGNet作为基础网络。在DeepLabv3中,为了将多个语境合并到网络中,作者使用了级联模块,并对ASPP模块进行了深入研究。

图5. Atrous Spatial Pooling Pyramid

利用基于多分辨率金字塔的表示方法可以扩大感受野,这有助于上述模型融合对象的尺度信息,获得精细的语义分割。但是,为了获得更好的语义分割,使用感受野扩大来捕获语境信息可能不是唯一的解决方案。

微美全息科学院成立于2020年8月,致力于全息AI视觉探索科技未知,以人类愿景为驱动力,开展基础科学和创新性技术研究。全息科学创新中心致力于全息AI视觉探索科技未知, 吸引、集聚、整合全球相关资源和优势力量,推进以科技创新为核心的全面创新,开展基础科学和创新性技术研究。微美全息科学院计划在以下范畴拓展对未来世界的科学研究:

一、全息计算科学:脑机全息计算、量子全息计算、光电全息计算、中微子全息计算、生物全息计算、磁浮全息计算

二、全息通信科学:脑机全息通信、量子全息通信、暗物质全息通信、真空全息通信、光电全息通信、磁浮全息通信

三、微集成科学:脑机微集成、中微子微集成、生物微集成、光电微集成、量子微集成、磁浮微集成

四、全息云科学:脑机全息云、量子全息云、光电全息云

微美全息科学院旨在促进计算机科学和全息、量子计算等相关领域面向实际行业场景和未来世界的前沿研究。建立产研合作平台,促进重大科技创新应用,打造产业、研究中心深度融合的生态圈。微美全息科学院秉承“让有人的地方就有科技”为使命,专注未来世界的全息科学研究,为全球人类科技进步添砖加瓦

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港