第2课笔记数据获取与处理

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

m monty 发布于2021-07

1、数据的获取途径

各个比赛平台：百度AI Studio ,Kaggle、天池、讯飞等平台。通过关键词搜索获取需要的数据集或者是Github。

图像处理完整流程：图片数据获取、图片数据清洗 ----初步了解数据，筛选掉不合适的图片

图片数据标注、图片数据预处理data preprocessing。

图片数据准备data preparation(训练+测试阶段) ----划分训练集，验证集，以及测试集

图片数据增强data augjmentation（训练阶段） ----CV常见的数据增强。随机旋转、随机水平或者重直翻转、缩放、剪裁、平移、调整亮度、对比度、饱和度、色差等等、注入噪声、基于生成对抗网络GAN做数搪增强AutoAugment等

纯数据处理完整流程
1.感知数据（初步了解数据，记录和特征的数量特征的名称，抽样了解记录中的数值特点描述性统计结果，特征类型，与相关知识领域数据结合，特征融合）

2.数据清理（转换数据类型，处理缺失数据，处理离群数据）

3.特征变换（特征数值化、特征二值化、OneHot编码、特征离散化特征、规范化、区间变换、标准化、归一化）

4.特征选择（封装器法，循序特征选择，穷举特征选择，递归特征选择、过滤器法、嵌入法）

5.特征抽取（无监督特征抽取，主成分分析，因子分析、有监督特征抽取）

2、数据处理

数据集统计信息：拉取PaddleDetection，存入持久层中，导入所需要的依赖，导入转格式所需要的包， COCO标注，总的验证集，总的训练集，创建解析好的图片与xml文件的目录，处理目标检测的数据集，没有这个文件时创建一个空的label的txt文件，移动到dataset文件夹，划分训练集与验证集

数据处理方法： plt 用于显示图片，根据数组绘制图像，显示图像，灰度图，根据数组绘制图像，显示图像，小Tips:jupyter notebook中plt显示灰度图异常，需要使用plt.imshow(gray,cmap="gray")方法正常显示灰度图。原图，matplotlib 按照RGB顺序展示原图， cv2默认的GBR显示图，32*32的缩略图，图像处理示例目标视野里比较多重叠，或者有点模糊的适用。锐化，亮度变换，提高对比度，传入调整系数对比度。

模型训练与评估

num_classes有些模型需要加1 比如faster_rcnn

3、模型推理预测

展示模型推理结果，根据数组绘制图像，显示图像；根据数组绘制图像，显示图像。

小结：

1、模型训练时要注意训练点中断后的必须重启环境，清除中断之前缓存的环境，点重启。重新运行代码块即可继续往后执行前面的加(39) 即可重新训练。

2、很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好，要做这些数据增强。