图像分类问题描述 图像分类问题是计算机视觉领域的基础问题,它的目的是根据图像的语义信息将不同类别图像区分开来,实现最小的分类误差。具体任务要求是从给定的分类集合中给图像分配一个标签的任务。总体来说,对于单标签的图像分类问题,它可以分为跨物种语义级别的图像分类,子类细粒度图像分类,以及实例级图像分类三大类别。因为VOC数据集是不同物种类别的数据集,所以本文主要研究讨论跨物种语义级别的图像分类任务。 通常图像分类任务存在以下技术难点: (1)视角变化:同一个物体,摄像机可以从多个角度来展现。 (2)大小变化:物体可视的大小通常是会变化的。 (3)形变:很多东西的形状并非一成不变,会有很大变化。 (4)遮挡:目标物体可能被挡住。有时候只有物体的一小部分是可见的。 (5)光照条件:在像素层面上,光照的影响非常大。 (6)背景干扰:物体可能混入背景之中,使之难以被辨认。 (7)类内差异:一类物体的个体之间的外形差异很大,比如椅子。这一类物体有许多不同的对象,每个都有自己的外形。
已有研究进展 图像分类算法通过手工特征或者特征学习方法对整个图像进行全局描述,然后使用分类器判断是否存 在某类物体。应用比较广泛的图像特征有SIFT,HOG,SURF等。这些对图像分类的研究中,大多数特征提取过程是人工设计的, 通过浅层学习获得图像底层特征,与图像高级主题间还存在很大的“语义鸿沟” 。而深度学习利用设定好的网络结构, 完全从训练数据中学习图像的层级结构性特征, 能够提取更加接近图像高级语义的抽象特征,在图像识别上的表现远远超过传统方法,因此这里只关注于深度学习的进展。
2.1 MNIST与LeNet5 在计算机视觉分类算法的发展中,MNIST 是首个具有通用学术意义的基准。这是一个手写数字的分类标准,包含 60000 个训练数据,10000 个测试数据,图像均为灰度图,通用的版本大小为 28×28。 在上个世纪90年代末本世纪初,SVM and K-nearest neighbors方法被使用的比较多,以SVM为代表的方法,可以将MNIST分类错误率降低到了0.56%,彼时仍然超过以神经网络为代表的方法,即LeNet系列网络。LeNet网络诞生于1994年,后经过多次的迭代才有了1998年的LeNet5,是为我们所广泛知晓的版本。 这是一个经典的卷积神经网络,它包含着一些重要的特性,这些特性仍然是现在CNN网络的核心。 (1)卷积层由卷积,池化,非线性激活函数构成。从1998年至今,经过20年的发展后,卷积神经网络依然遵循着这样的设计思想。其中,卷积发展出了很多的变种,池化则逐渐被带步长的卷积完全替代,非线性激活函数更是演变出了很多的变种。 (2)稀疏连接,也就是局部连接,这是以卷积神经网络为代表的技术能够发展至今的最大前提。利用图像的局部相似性,这一区别于传统全连接的方式,推动了整个神经网络技术的发展。 虽然LeNet5当时的错误率仍然停留在0.7%的水平,不如同时期最好的SVM方法,但随着网络结构的发展,神经网络方法很快就超过了其他所有方法,错误率也降低到了0.23%,甚至有的方法已经达到了错误率接近0的水平。
2.2 ImageNet与AlexNet 在本世纪的早期,虽然神经网络开始有复苏的迹象,但是受限于数据集的规模和硬件的发展,神经网络的训练和优化仍然是非常困难的。MNIST和CIFAR数据集都只有60000张图,这对于10分类这样的简单的任务来说,或许足够,但是如果想在工业界落地更加复杂的图像分类任务,仍然是远远不够的。 后来在李飞飞等人数年时间的整理下,2009年,ImageNet数据集发布了,并且从2010年开始每年举办一次ImageNet大规模视觉识别挑战赛,即ILSVRC。ImageNet数据集总共有1400多万幅图片,涵盖2万多个类别,在论文方法的比较中常用的是1000类的基准。 在ImageNet发布的早年里,仍然是以SVM和Boost为代表的分类方法占据优势,直到2012年AlexNet的出现。 AlexNet是第一个真正意义上的深度网络,与LeNet5的5层相比,它的层数增加了3层,网络的参数量也大大增加,输入也从28变成了224,同时GPU的面世,也使得深度学习从此进行GPU为王的训练时代。 AlexNet有以下的特点: (1)网络比LeNet5更深,包括5个卷积层和3个全连接层。 (2)使用Relu激活函数,收敛很快,解决了Sigmoid在网络较深时出现的梯度弥散问题。 (3)加入了Dropout层,防止过拟合。 (4)使用了LRN归一化层,对局部神经元的活动创建竞争机制,抑制反馈较小的神经元放大反应大的神经元,增强了模型的泛化能力。 (5)使用裁剪翻转等操作做数据增强,增强了模型的泛化能力。预测时使用提取图片四个角加中间五个位置并进行左右翻转一共十幅图片的方法求取平均值,这也是后面刷比赛的基本使用技巧。 (6)分块训练,当年的GPU计算能力没有现在强大,AlexNet创新地将图像分为上下两块分别训练,然后在全连接层合并在一起。 (7)总体的数据参数大概为240M,远大于LeNet5。
2.3 分类模型的逐年进步 2013年ILSVRC分类任务冠军网络是Clarifai,不过更为我们熟知的是zfnet。hinton的学生Zeiler和Fergus在研究中利用反卷积技术引入了神经网络的可视化,对网络的中间特征层进行了可视化,为研究人员检验不同特征激活及其与输入空间的关系成为了可能。在这个指导下对AlexNet网络进行了简单改进,包括使用了更小的卷积核和步长,将11x11的卷积核变成7x7的卷积核,将stride从4变成了2,性能超过了原始的AlexNet网络。 2014年的冠亚军网络分别是GoogLeNet和VGGNet。 其中VGGNet包括16层和19层两个版本,共包含参数约为550M。全部使用3×3的卷积核和2×2的最大池化核,简化了卷积神经网络的结构。VGGNet很好的展示了如何在先前网络架构的基础上通过简单地增加网络层数和深度就可以提高网络的性能。虽然简单,但是却异常的有效,在今天,VGGNet仍然被很多的任务选为基准模型。 GoogLeNet是来自于Google的Christian Szegedy等人提出的22层的网络,其top-5分类错误率只有6.7%。 GoogleNet的核心是Inception Module,它采用并行的方式。一个经典的inception结构,包括有四个成分。1×1卷积,3×3卷积,5×5卷积,3×3最大池化,最后对四个成分运算结果进行通道上组合。这就是Inception Module的核心思想。通过多个卷积核提取图像不同尺度的信息然后进行融合,可以得到图像更好的表征。自此,深度学习模型的分类准确率已经达到了人类的水平(5%~10%)。 与VGGNet相比,GoogleNet模型架构在精心设计的Inception结构下,模型更深又更小,计算效率更高。 2015年,ResNet获得了分类任务冠军。它以3.57%的错误率表现超过了人类的识别水平,并以152层的网络架构创造了新的模型记录。由于ResNet采用了跨层连接的方式,它成功的缓解了深层神经网络中的梯度消散问题,为上千层的网络训练提供了可能。 2016年依旧诞生了许多经典的模型,包括赢得分类比赛第二名的ResNeXt,101层的ResNeXt可以达到ResNet152的精确度,却在复杂度上只有后者的一半,核心思想为分组卷积。即首先将输入通道进行分组,经过若干并行分支的非线性变换,最后合并。 在ResNet基础上,密集连接的DenseNet在前馈过程中将每一层与其他的层都连接起来。对于每一层网络来说,前面所有网络的特征图都被作为输入,同时其特征图也都被后面的网络层作为输入所利用。 DenseNet中的密集连接还可以缓解梯度消失的问题,同时相比ResNet,可以更强化特征传播和特征的复用,并减少了参数的数目。DenseNet相较于ResNet所需的内存和计算资源更少,并达到更好的性能。 2017年,也是ILSVRC图像分类比赛的最后一年,SeNet获得了冠军。这个结构,仅仅使用了“特征重标定”的策略来对特征进行处理,通过学习获取每个特征通道的重要程度,根据重要性去降低或者提升相应的特征通道的权重。 卷积神经网络在特征表示上具有极大的优越性,模型提取的特征随着网络深度的增加越来越抽象,越来越能表现图像主题语义,不确定性越少,识别能力越强。虽然基本的图像分类任务,尤其是比赛趋近饱和,但是现实中的图像任务仍然有很多的困难和挑战。如类别不均衡的分类任务,类内方差非常大的细粒度分类任务,以及包含无穷负样本的分类任务。
方法与实现
1 数据处理 考虑到深度学习中模型性能与数据集数量密切相关,以及数据不足导致的训练不充分,本文通过对数据进行预处理以及数据增强提升分类性能,增强模型的泛化性。主要包括调整图像大小、镜像、剪切、旋转和随机擦除等。 神经网络在学习的时候一般采取批学习方式提高效率,在具体实现时,模型接受的是张量,所以首先要把原始数据处理成张量形式。然后是对图像进行预处理,调整大小到统一尺寸,目的是适应模型训练;同时对读入的图像进行归一化,目的是为了让某些激活函数的梯度不致于过小,加快收敛。 通过对图像镜像、剪切、旋转以及随机擦除不仅可以增加数据集的数量,还可以增加图像的识别难度和训练过程中的难例,让模型能够学到更多的有效特征。
3.2 基准模型 由于深度残差网络的简洁性和有效性,因此我们方法的基准网络模型采用深度残差网络ResNet。 深度残差网络是2015年提出的深度卷积网络,一经出世,便在ImageNet中斩获图像分类、检测、定位三项的冠军。 一般来说,增加网络的宽度和深度可以很好的提高网络的性能,深的网络一般都比浅的的网络效果好,通过实验我们发现,当网络层数达到一定的数目以后,网络的性能就会饱和,再增加网络的性能就会开始退化,但是这种退化并不是由过拟合引起的,因为我们发现训练精度和测试精度都在下降,这说明当网络变得很深以后,深度网络就变得难以训练了。 ResNet的出现其实就是为了解决网络深度变深以后的性能退化问题。如下图所示,ResNet主要通过残差网络结构使优化的目标变为H(x)=F(x)+x(x就是该结构的输入),通过这种结构以后就把优化的目标由H(x)转化为H(x)-x,这时候就不是把上面几层训练到一个等价映射了,而是将其逼近与0,这样训练的难度比训练到一个等价映射下降了很多,同时解决网络太深难训练的问题。
3.3 损失函数 多分类问题最常用的方法是设置n个输出节点,其中n为类别的个数。对于每一个样例,网络模型可以得到的一个n维数组作为输出结果。数组中的每一个维度(也就是每一个输出节点)对应一个类别。在理想情况下,如果一个样本属于类别k,那么这个类别所对应的输出节点的输出值应该为1,而其他节点的输出都为0。 交叉熵是最好的评判方法之一。交叉熵刻画了两个概率分布之间的距离,它是分类问题中使用比较广的一种损失函数。本文采用的是加权的交叉熵函数,按照不同类别图像的数量设置权值,目的是平衡不同类别的图像的数量。
3.4 算法流程 (1)数据处理:将数据按需处理为张量、随机组成批量、归一化、标准化以及一些数据增强等效果。 (2)模型定义:定义ResNet模型,设计网络层数,层的类别,包括卷积,池化,批标准化,激活函数的设置。 (3)参数更新:训练模型的过程最基本的就是更新参数,更新参数与模型紧密相关,因此可以把最基础的单次参数更新和模型合在一起包装成一个对象,在训练过程中更新参数时,喂给这个模型数据,然后使用这个对象的行为来实现单次更新。具体流程为根据model生成模型对象,对这些层进行初始化,接受批数据,根据定义好的优化方法,更新对象内的模型参数。 (4)模型选择:模型选择的准则是根据任务需要来的,每次更新完参数测试模型是否满足条件,符合就停止算法,不符继续。
3.5 具体实现 我们的方法实现基于Pytorch深度学习框架,将所有图像调整大小为300*300,批次大小设置为32,模型包括ResNet 18、ResNet 34、 ResNet 50、 ResNet 101,并导入在ImageNet数据集的预训练模型,初始学习率大小设置为1e-3,优化方法选取随机梯度下降方法,动量设置为0.9,训练轮数为16。
算法与工具 图像分类主要使用的 5 个方法是 KNN、SVM、BP 神经网络、CNN 和迁移学习。 五个方法可分为 3 类方法: 第一类方法:使用 KNN、SVM、BP 神经网络这些课堂算法。这些算法强大易实现。我们主要使用 sklearn 实现这些算法。 第二类方法:尽管传统的多层感知器模型已成功应用于图像识别,但由于其节点之间的全连接性,它们遭遇了维度的难题,从而不能很好地扩展到更高分辨率的图像。因此我们使用深度学习框架 TensorFlow 打造了一个 CNN。 第三个方法:重新训练一个被称作 Inception V3 的预训练深度神经网络的最后一层,同样由 TensorFlow 提供。Inception V3 是为 ImageNet 大型视觉识别挑战赛训练的,使用了 2012 年的数据。这是计算机视觉的常规任务,其中模型试图把全部图像分为 1000 个类别,比如斑马、达尔阿提亚人和洗碗机。为了再训练这一预训练网络,我们要保证自己的数据集没有被预训练。
4.1实现 第一类方法:预处理数据集,并使用 sklearn 实现 KNN、SVM、BP 神经网络。 首先,我们使用 OpenCV 包定义了 2 个不同的预处理函数:第一个是图像到特征向量,它可以重调图像大小,并把图像转化为行像素列表;第二个是提取颜色直方图,即使用 cv2.normalize 从 HSV 颜色空间提取 3D 颜色直方图,并平化(flatten)结果。 接着,建构若干个我们需要解析的参数。由于想要同时测试整个数据集和带不同数量标签的子数据集的精确度,我们构建了一个作为参数的数据集并解析进我们的程序。我们同样构建了用于 k-NN 方法的邻元素数作为解析参数。 之后,我们开始提取数据集中的每一图像特征,并将其放入数组。我们使用 cv2.imread 读取每一图像,通过从图像名称中提取字符串来拆分标签。在我们的数据集中,我们使用相同格式——类别标签. 图像序号.jpg——设置名称,因此我们可以轻易提取每张图像的分类标签。接着我们使用这两个函数提取 2 种特征并附加到数组 rawImages,而之前提取的标签附加到数组标签。 下一步是使用从 sklearn 包导入的函数 train_test_split 拆分数据集。这个集具有后缀 RI,RL 是 rawImages 和标签对的拆分结果,另一个是特征和标签对的拆分结果。我们使用 85% 的数据集作为训练集,余下的 15% 作为测试集。 最后,我们应用 KNN、SVM、BP 神经网络函数评估数据。对于 KNN 我们使用 KNeighborsClassifier,对于 SVM 我们使用 SVC,对于 BP 神经网络我们使用 MLPClassifier。 第二类方法:使用 TensorFlow 构建 CNN。TensorFlow 的全部目的在于使你打造一张计算图(使用 Python 等语言),接着在 C++ 中执行该图(在相同计算量的情况下,C++比 Python 更高效)。 TensorFlow 也可自动计算优化图变量所需的梯度,从而使模型表现更好。这是由于该图由简单的数学表达式组合而成,因此可通过导数链式法则计算全图的梯度。 一张 TensorFlow 图包含以下几个部分,每一部分将在下文详述: • 占位符变量,用于输入数据到图。 • 优化向量以使卷积网络表现更好。 • 卷积网络的数学公式。 • 可用于指导变量优化的成本衡量标准。 • 更新变量的优化方法。 CNN 架构由一堆不同的层组成,这些层通过可微分函数可把输入量转化为输出量。 因此,在我们的实现中,第一层是保存图像,接着我们使用 2 x 2 最大池化和修正线性单元(ReLU)的构建 3 个卷积层。输入是 4 维张量: 图像序号。 每一图像的 Y 轴。 每一图像的 X 轴。 每一图像的通道(channel)。 输出是另一个 4 维张量: 图像序号,与输入相同。 每一图像的 Y 轴。如果使用 2x2 池化,接着输入图像的高和宽除以 2。 每一图像的 X 轴。同上。 由卷积滤波器生成的通道。 接着,我们我们在网络末端构建了 2 个全连接层。输入是一个 2 维的形状张量 [num_images、num_inputs]。输出也是一个 2 维的形状张量 [num_images、num_outputs] 然而,为了连接卷积层和全连接层,我们需要一个平层(Flatten Layer)以把 4 维向量减少至可输入到全连接层的 2 维。 CNN 末端通常是一个 softmax 层,它可归一化来自全连接层的输出,因此每一元素被限制在 0 与 1 之间,并且所有元素总和为 1。 为了优化训练结果,我们需要一个成本衡量标准并在每次迭代中将成本降至最少。这里我们使用的成本函数是交叉熵(tf.nn.oftmax_cross_entropy_with_logits()),并在所有的图像分类中取交叉熵的平均值。优化方法是 tf.train.AdamOptimizer(),它是梯度下降的高级形式。这是一个可被调节的参数学习率。 第三种方法:再训练 Inception V3。现代目标识别模型有数以百万计的参数,并可能需要花费数周的时间才能完全训练一个模型。迁移学习是一种采用在分类数据集(如 ImageNet)中已训练的模型而快速完成这一工作的方法,因为其只需要重新训练新类别的权重就行。虽然这样的模型并没有完全训练的模型表现好,但对于许多应用来说,这是非常高效的,因为其不需要 GPU 并可以在笔记本上花半个小时就完成训练。 首先我们需要获取预训练模型,并移除旧的顶层神经网络,然后再基于我们的数据集重新训练一个输出层。虽然猫的所有品种并没有在原始 ImageNet 数据集和全训练的模型中体现,但迁移学习的神奇之处就在于其可以利用已训练模型用来识别某些目标的底层特征,因为底层特征可以在很多不更改的情况下应用于很多识别任务。然后我们分析本地的所有图片并计算每张的瓶颈值(bottleneck values)。因为每张图片在训练过程中重复使用了多次,所以计算每个瓶颈值需要花费大量时间,但我们可以加快缓存这些瓶颈值,也就可以省去重复的计算。 该脚本将运行 4000 次训练步。每一步从训练集中随机选择 10 张图片,并从缓存中搜索其瓶颈值,然后再将它们训练最后一层以得到预测。这些预测会通过对比真实标注值而通过反向传播过程更新最后一层的权重。
结论 基于以上比较,我们可以看到: KNN、SVM 和 BP 神经网络对于某些特定图像分类任务是不够的。 虽然我们会在 CNN 中过拟合,但这仍然比那些课堂方法要好。 迁移学习在图像分类问题上效率很高,功能强大。它准确快速,可以在短时间内完成训练——而且不需要 GPU 的帮助。即使你只有一个很小的数据集,它也可以达到很好的效果,并且减少了过拟合的概率。 我们已经从图像分类任务中学到了很多,这类任务与课堂上的其他分类任务大不相同。数据集相对较大且稠密,需要的网络十分复杂,且大多方法依赖于 GPU 的计算能力。 经验: 裁剪或重调图像,使其更小 在训练的每个迭代中随机选择一个小 batch 在验证集进行验证的时候随机选择一个小 batch,在训练过程中频繁记录验证分数 可以使用 Image Augmentation 处理图片,增大数据集体量 对于图像分类任务,我们需要比 200 x 10 的更大的数据集,CIFAR-10 数据集包含 6 万张图像。 越复杂的网络需要越大的数据集进行训练 小心过拟合