微美全息科学院：多种基于卷积神经网络的语义分割模型-神经网络-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

微美全息科学院：多种基于卷积神经网络的语义分割模型

来源：互联网发布日期：2022-04-09 10:09:34 浏览：10437次

导读：图像分割基本上可以分为两种类型：语义分割和实例分割。近些年，基于CNN的语义和实例分割的研究得到了大量的关注。作为纳斯达克上市企业微美全息US.WIMI 旗下研究机构微美全息科学院的科学家们详细探讨了关于多种基于卷积神经网络的语义分割模型。以下将...

图像分割基本上可以分为两种类型：语义分割和实例分割。近些年，基于CNN的语义和实例分割的研究得到了大量的关注。作为纳斯达克上市企业“微美全息US.WIMI”旗下研究机构“微美全息科学院”的科学家们详细探讨了关于多种基于卷积神经网络的语义分割模型。以下将详细探讨一些先进的基于CNN的语义分割模型的体系结构细节。模型是根据使用的最重要的特征进行分类的。在每一个分类讨论的最后，还简要讨论了特定模型类别的优点和缺点。

1. 基于完全卷积网络

Long等人提出了完全卷积网络（FCN）来解决语义分割问题。他们使用了AlexNet、VGGNet和GoogleNe（这三个都是在ILSVRC数据上预先训练过的）作为基本模型。他们将这些模型从classifiers转变为稠密的FCN，方法是用1×1卷积层代替完全连接层，并附加一个通道数为21的1×1卷积来预测20个PASCAL VOC类和1个背景类的得分。

在FCN AlexNet、FCN-VGG16和FCN GoogLeNet中，FCN-VGG16在PASCAL VOC 2011验证数据集上的准确度最高。因此，作者选择FCN-VGG16网络进行进一步的实验。由于网络生成了粗糙的输出位置，作者使用双线性插值对粗输出32×进行上采样，使其像素密集。但是这种上采样对于详细的分割是不够的。因此，他们使用跳跃连接来组合预测层和VGG16丰富的下层特征，并将这种组合称为deep jet。图1显示了不同的deep jet：FCN-16s、FCN-8s和FCN-32s。其中FCN-8s在PASCAL VOC 2011中的表现最好。

图1.FCN32s, FCN16s, FCN8s的结构

FCN的主要变化有：基本模型VGG16、双极插值技术（用于对原始特征图进行上采样）和跳过连接（用于将低层和高层特征结合起来以进行细粒度语义分割），这些都有助于该模型达到最新的结果。

FCN只利用局部信息进行语义分割，但由于局部信息会使图像的全局语义上下文变得模糊。从整个图像中减少模糊的上下文信息是很有帮助的。

2. 基于Dialatation卷积

Dialated-Net：传统的CNN用于分类任务，会损失分辨率，不适合密集预测。Yu和Koltun引入了传统CNN的改进版本，称为dialated卷积或Dialated-Net，系统地积累多尺度上下文信息，以便在不损失分辨率的情况下更好地进行分割。Dialated-Net就像一个卷积层的矩形棱镜，不像传统的金字塔CNN。如图2所示，在不丢失任何空间信息的情况下，它可以支持指数扩展的感知域。

图2.(a) 1倍dialation，感知域3×3；(b) 2倍dialation，感知域7×7；(c) 4倍dialation，感知域15×15

基于dialation模型的优点是它有助于保持图像的空间分辨率以产生密集的预测。但是，使用dialation卷积将图像像素从其全局上下文中分离出来，这使得它很容易被误分类。

3. 基于自上而下/自下而上的方法

DeconvNet由Noh等人提出，具有卷积和反卷积网络。卷积网络在拓扑上与VGG16的前13个卷积层和2个完全连接层相同，除了最后的分类层。反卷积网络与卷积网络相同，但层次相反。同时，它还具有多个系列的反卷积层、反池化层和反整流层。卷积和反卷积网络的所有层都提取特征映射，除了反卷积网络的最后一层是用于生成像素级的概率图，它与输入图像的尺寸相同。在反卷积网络中，作者应用了反池化操作来重建初始激活大校此处，反池化操作是通过在卷积操作时存储的最大池索引来完成的。

为了使放大但稀疏的反池化特征图的密度更大，作者将单个输入激活与多个输出相关联，使用多个习得的滤波器完成类似卷积的操作。与FCN不同，作者将他们的网络应用于从输入图像中提取出的目标建议，并产生像素级预测。然后，将所有建议的输出集合到原始图像空间，对整个图像进行分割。这种基于实例的分割方法能够处理多尺度对象的细节，同时降低了训练的复杂度和训练的内存消耗。为了处理网络中的内部协变量偏移，作者在卷积层和反卷积层之上添加了批处理规范化层。DevNet的架构如图3所示。

图3. DeconvNet的网络结构

由于基于FCN的模型在最后层的上采样率很高，所以会产生粗输出。因此，不可能进行精细的语义分割。另一方面，基于自上而下/自下而上方法的模型使用逐渐增加的上采样率，从而获得更精确的分割。但在这种情况下，该模型还缺少全局上下文信息的整合。

4. 基于全局语境的方法

ParseNet：Liu等人提出了一种端到端结构的ParseNet，它是对全卷积神经网络的改进。为了更好的分割，作者添加了全局特征或全局上下文信息。图4显示了ParseNet的模型描述。在提取卷积特征映射之前，ParseNet与FCN相同。之后，作者使用了全局平均池化来提取全局上下文信息。然后，对池化后的特征图进行反池化操作，使其与输入特征图的大小相同。现在，将原始特征图和反池化后的特征图结合起来预测分类。作者将两个不同的特征图组合在一起，而这些特征图在规模和标准上都是不同的。为了使这种组合起作用，他们使用了两个L2规范化层：一个是在全局池化层之后，另一个是在从FCN中提取原始特征图之后。该网络在ShiftFlow，PASCAL context上达到了最先进的性能，在PASCAL VOC 2012数据集上接近最新水平。

图4. ParseNet的模型设计

虽然全局卷积的应用有助于提高精度，但它缺乏多尺度目标的尺度信息。

5. 基于感受野放大的方法

DeepLabv2和DeepLabV3：DeepLabv2和DeepLabV3的作者使用Atrous Special Pooling Pyramid（ASPP）修改了他们的网络，聚集多尺度的特征以更好地进行定位，并提出了DeepLabv2。图5显示了ASPP。该体系结构同时使用ResNet和VGGNet作为基础网络。在DeepLabv3中，为了将多个语境合并到网络中，作者使用了级联模块，并对ASPP模块进行了深入研究。

图5. Atrous Spatial Pooling Pyramid

利用基于多分辨率金字塔的表示方法可以扩大感受野，这有助于上述模型融合对象的尺度信息，获得精细的语义分割。但是，为了获得更好的语义分割，使用感受野扩大来捕获语境信息可能不是唯一的解决方案。

微美全息科学院成立于2020年8月，致力于全息AI视觉探索科技未知，以人类愿景为驱动力，开展基础科学和创新性技术研究。全息科学创新中心致力于全息AI视觉探索科技未知, 吸引、集聚、整合全球相关资源和优势力量，推进以科技创新为核心的全面创新，开展基础科学和创新性技术研究。微美全息科学院计划在以下范畴拓展对未来世界的科学研究：

一、全息计算科学：脑机全息计算、量子全息计算、光电全息计算、中微子全息计算、生物全息计算、磁浮全息计算

二、全息通信科学：脑机全息通信、量子全息通信、暗物质全息通信、真空全息通信、光电全息通信、磁浮全息通信

三、微集成科学：脑机微集成、中微子微集成、生物微集成、光电微集成、量子微集成、磁浮微集成

四、全息云科学：脑机全息云、量子全息云、光电全息云

微美全息科学院旨在促进计算机科学和全息、量子计算等相关领域面向实际行业场景和未来世界的前沿研究。建立产研合作平台，促进重大科技创新应用，打造产业、研究中心深度融合的生态圈。微美全息科学院秉承“让有人的地方就有科技”为使命，专注未来世界的全息科学研究，为全球人类科技进步添砖加瓦

相关热词： 微美全息科学院多种基于卷积神经网络语义分割

微美全息科学院：多种基于卷积神经网络的语义分割模型
来源：互联网发布日期：2022-04-09 10:09:34 浏览：10437次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

微美全息科学院：多种基于卷积神经网络的语义分割模型 来源：互联网 发布日期：2022-04-09 10:09:34 浏览：10437次