【飞桨图像分割】DeepLab学习笔记
发布于2020-10 浏览:2080 回复:2
0
收藏

1. DeepLab v1 
https://arxiv.org/pdf/1412.7062v3.pdf

2015 年的ICLR上提出DeepLab 是结合了深度卷积神经网络(DCNNs)和概率图模型(DenseCRFs)的方法。在实验中发现 DCNNs 做语义分割时精准度不够的问题,根本原因是 DCNNs 的高级特征的平移不变性,即高层次特征映射,根源于重复的池化和下采样。

针对信号下采样或池化降低分辨率,DeepLab 采用的空洞卷积算法扩展感受野,获取更多的语境信息。采用完全连接的条件随机场(CRF)提高模型捕获细节的能力,简单来说,就是对一个像素进行分类的时候,不仅考虑DCNN的输出,而且考虑该像素点周围像素点的值,这样语义分割结果边界清楚。除空洞卷积和 CRFs之外,论文使用的tricks还有 Multi-Scale features,与FCN skip layer类似,具体实现上,在输入图片与前四个 max pooling 后添加卷积层,这四个预测结果和模型输出拼接。

网络结构如下所示:

2. DeepLab v2 
https://arxiv.org/pdf/1606.00915.pdf

DCNN 连续池化和下采样造成分辨率降低,DeepLabv2 在最后几个最大池化层中去除下采样,取而代之的是使用空洞卷积,以更高的采样密度计算特征映射。

基于 Spatial Pyramid Pooling (SPP),在给定的输入上以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文,该论文称为ASPP (Atrous Spatial Pyramid Pooling) 模块。关于CRF,DeepLabv2 是采样全连接的 CRF 在增强模型捕捉细节的能力。

DeepLabv2的网络结构如下所示:

feature map经过了4个不同的dilation conv并保持原尺寸输出,然后进行element-wise加得到最后的feature map。ASPP的结构如下所示:

3. DeepLab v3 
https://arxiv.org/pdf/1706.05587.pdf

DeepLabv3 设计采用多比例的空洞卷积级联或并行来捕获多尺度背景,并且修改了空洞空间金字塔池化模块。CRF并没有采用。

DeepLabv3的网络结构如下所示:

对原来的ASPP进行了改进,引入的1x1conv,dilation conv和Adaptive Pool。最后对所有的feature map进行concate操作,得到最后的feature map.

此外,还对backbone进行了改进,同样引入了dilation cov,并且在不同的layer和同一个Res block中使用不同的dilation,如下图所示:

4. DeepLab系列结构对比

以上图片来源于《图像分割7日打卡营》,课程链接:

https://aistudio.baidu.com/aistudio/course/introduce/1767

最后,由衷地感谢百度的深度学习开发团队孜孜不倦地为我们提供优质的课程,感谢辛勤忙碌的班主任、助教同学以及学识渊博诲人不倦的授课老师们,你们辛苦了!

收藏
点赞
0
个赞
共2条回复 最后由用户已被禁言回复于2022-04
#3七年期限回复于2020-11

0
#2189******30回复于2020-11

学习笔记很认真啊,加油,共同努力!

0
TOP
切换版块