计算机视觉 语义分割 论文笔记
< A Review on Deep Learning Techniques Applied to Semantic Segmentation > 1. 综述 语义分割semantic segmentation 是计算机视觉中一个重要的部分。长远来看,它为完整的场景理解铺平了道路。语义分割并不是一个单独的门类,这是从粗糙分类到精细分类的自然一步。 演化的步骤是这样的: 1. 首先我们做的是输入一张图,输出这张图上有没有特定的物体,即预测哪些物体是属于这个图像的,或者给出一个可能性排序。 2. 接下来我们发展为:给出物体的定位与检测。定位体现在我们可以标注出物体的中心点,或者用框框出来。然而这里的检测还是检测出一个类别,并不能细分出类别里的事例。可以理解为能识别java里的class 而不是instance 的感觉。这样的话我们对于图中的每一个像素都能归类到一个类别。 3. 在之前的基础上,我们可以进一步细化,我们可以把图中的每个像素不光标注出它属于什么类别class,而是标注出属于哪个事例instance 所以上图c,d 这种问题就被归结为: 我们定义一个集合 L{l0,l1,...lk} 集合L代表一共有k+1个不同的instance标签,通常我们认为l0就是背景background 定义集合X = {x1, x1, ... xn} 集合X代表图中所有像素一共n个像素点。 输出就是预测每个像素点所对应的label值 这也就是像素级别的预测 2.1 常见的深度网络架构 这段也可以看 CS231n 2017 Lecture 9 Alex Net VGG GoogLeNet ResNet ReNet 2.2 迁移学习 因为从头训练一个深度神经网络通常不太可行,原因有二:训练需要足够的数据量;模型训练到收敛需要不少的时间。通常我们拿一个预训练好的模型,然后用自己的数据集训练,微调Fine-tuning一些权重。在Fine-tuning的时候,选取哪一层开始很关键,一般会选择比较较高的层,因为底层会保留比较通用的特征;并且learning rate 也不适合选的过大,毕竟我们只是微调。 2.3 数据预处理和数据增强 数据增强指从已有数据中得到新的样本,通过 ...