AI达人创造营Day02数据获取与处理

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

jianghe 发布于2021-07

1 数据集的获取
一般来源于各个比赛平台。

Kaggle
天池
DataFountain
科大讯飞
COCO
百度AI studio
Paper with code
IEEE
完整流程概述
图片数据获取
图片数据清洗
图片数据标注
图片数据预处理
图片数据准备 data preparation 训练和测试阶段
图片数据增强data augimentation
预处理流程
----标准化 standardlization

原始数据不同维度上的特征的尺度（单位）不一致时，需要标准化步骤对数据进行预处理。

中心化 = 去均值 mean normallization

将各个维度中心化到0

目的是加快收敛速度,在某些激活函数上表现更好
归一化 = 除以标准差

将各个维度的方差标准化处于[-1,1]之间

目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
图片数据增强
CV常见的数据增强

随机旋转
随机水平或者重直翻转
缩放
剪裁
平移
调整亮度，对比度，饱和度，色差
注入噪声
基于生成对抗网络GAN 数据增强
纯数据处理完整流程

1.感知数据

初步了解数据
记录和特征的数量特征的名称
抽样了解记录中的数值特点描述性统计结果
特征类型
与相关知识领域数据结合，特征融合
2 数据清洗
转换数据类型
处理缺失数据
处理离群数据
3 特征变换
特征数值化
特征二值化
OneHot编码
特征离散化特征
规范化
区间变换
标准化
归一化

4 特征选择
封装器法
循序特征选择、
穷举特征选择、
递归特征选择
过滤器法
嵌入法
5 特征抽取
无监督特征抽取
主成分分析
因子分析
有监督特征抽取
皮尔森系数
皮尔森相关系数是用来反应俩变量之间相似程度的统计量，在机器学习中可以用来计算特征与类别间的相似度，即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。 Pearson系数的取值范围为[-1,1]，当值为负时，为负相关，当值为正时，为正相关，绝对值越大，则正/负相关的程度越大。若数据无重复值，且两个变量完全单调相关时，spearman相关系数为+1或-1。当两个变量独立时相关系统为0，但反之不成立。

用Corr()函数即可，(保证行相同)。

当两个变量的标准差都不为零时，相关系数才有定义，Pearson相关系数适用于：

(1)、两个变量之间是线性关系，都是连续数据。

(2)、两个变量的总体是正态分布，或接近正态的单峰分布。

(3)、两个变量的观测值是成对的，每对观测值之间相互独立。

2数据处理
VOC 和COCO 格式的文件

VOC 的xml文件
每张图片都有一个对应的xml文件

COCO 的json文件

2.2 自定义数据集进行训练
常见标注工具
对于图像分类任务，我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务，目前比较流行的数据标注工具是labelimg、labelme，分别用于检测任务与分割任务的标注。

标注工具Github地址：

labelimg
labelme
PPOCRLabel
2.3 labelimg使用

ppocrl 可以自动标注

3 数据处理方法
图片分为位图，矢量图

3.1 为什么要做这些数据增强
是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

在不实质性的增加数据的情况下，从原始数据加工出更多的表示，提高原数据的数量及质量，以接近于更多数据量产生的价值。

正确的增加数据增强时，可以小幅度提升mAP值。