在之前接触卷机神经网络CNN是直接从YOLO开始了解的,直接面想的是计算机视觉中的目标识别模块。但是这样造成的局限是没有了解到计算机视觉是可以划分为图像分类、目标识别、语义分割和实例分割等等。这些技术来源于卷积对于图像特征的自动化提取。所以在建立网络的过程中需要清晰掌握特征关联的层的重要性。
图像分类其实总的来说分为四个步骤:
1. 数据查看
2. 数据处理
3. baseline构建
4. 模型训练和评估
通常在学习的过程中会忘记前两者,而专注于后面的操作,对于网络结构的选择、对于评价指标的评估;但是前面繁而杂的数据预处理其实更能体现对于coding和数据掌握的层次,其中体现的能力对于后面的模型建立也是有效的。
图像预处理要掌握
图像标准化与归一化,最常见的图像预处理方式有两种,一种是图标标准化处理,将数据按照比例缩放,使之落入一个特定的区间中,将数据通过去均值,实现中心化。第二种是数据归一化,将数据统一映射到0-1区间中 它的作用
有利于初始化的进行
避免给梯度数值更新带来数值问题
有利于学习率数值的调整
加快寻找最优解速度
后面baseline的选择要掌握的
## 选择自己的baseline
理想情况中,模型越大拟合能力越强。图像尺寸越大,保留的信息也越多,在实际情况中模型越复杂训练
时间越长,图像越长尺寸越大训练时间也越长
比赛开始有限使用最简单的resnet,快速跑完整个训练和预测流程,分类模型的选择需要根据任务复杂度来
进行选择,并不是精度越高的模型月适合参加比赛
在实际的比赛中可以逐步增加尺寸,在64-64的尺寸下让模型收敛,进而将模型放到128-128的尺寸爱训练
在选择的过程中baseline应该遵循几点原则
1. 复杂度地,代码结构简单
2. loss收敛正确,metric出现提升
3. 迭代快速,没有很fancy的模型结构、loss function或者图像预处理方法之类的
4. 需要编写正确并简单的测试脚本,能够提交submission之后获得正确的分数
在本次使用reset的过程中,由于之前没有学过相关的模型,最开始是一个3*32*32的模型,在本文中使用的3*224*224的输出,就需要根据特征图的规则进行调整
学习了