百度飞桨学习笔记之数据集的获取与处理

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

白鱼发布于2021-07

1、数据集的获取
1、百度AI Studio数据集大厅

2、Kaggle

3、天池

4、DataFountain

等等数据集网站

2、数据集处理
2.1、图片数据获取
2.2、图片数据清洗
--去掉不合适的图片

2.3、图片数据的标注
2.4、图片数据的预处理
----标准化 standardlization

一中心化 = 去均值 mean normallization

一将各个维度中心化到0

一目的是加快收敛速度,在某些激活函数上表现更好

一归一化 = 除以标准差

一将各个维度的方差标准化处于[-1,1]之间

一目的是提高收敛效率,统一不同输入范围的数据对模型学习的影响,映射到激活函数有效梯度的值域

2.5、图片数据准备（训练+测试阶段）
----划分训练集，验证集，以及测试集

2.6、图片数据增强（训练阶段）
----CV常见的数据增强

· 随机旋转

· 随机水平或者重直翻转

· 缩放

· 剪裁

· 平移

· 调整亮度、对比度、饱和度、色差等等

· 注入噪声

· 基于生成对抗网络GAN做数搪增强AutoAugment等

3、纯数据的处理
3.1、感知数据
----初步了解数据

----记录和特征的数量特征的名称

----抽样了解记录中的数值特点描述性统计结果

----特征类型

----与相关知识领域数据结合，特征融合

3.2、数据清理
----转换数据类型

----处理缺失数据

----处理离群数据

3.3、特征变换
----特征数值化

----特征二值化

----OneHot编码

----特征离散化特征

----规范化

区间变换

标准化

归一化

3.4、特征选择
----封装器法

循序特征选择

穷举特征选择

递归特征选择

----过滤器法

----嵌入法

3.5、特征抽取
----无监督特征抽取

主成分分析

因子分析

----有监督特征抽取

4、自定义数据集进训练

4.1 常见标注工具
对于图像分类任务，我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务，目前比较流行的数据标注工具是labelimg、labelme，分别用于检测任务与分割任务的标注。

主流的标注工具：

labelimg

labelme

PPOCRLabel

5、数据处理方法
5.1图像得本质
我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图。如下图所示：

位图的特点:

由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真

矢量图的特点:

超矢量定义
放太不模糊
文件体积较小
表现力差
5.2 为什么要做这些数据增强
是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

6、模型训练与评估
介绍mAP：
在机器学习领域中，用于评价一个模型的性能有多种指标，其中几项就是FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)。

mean Average Precision, 即各类别AP的平均值，是AP：PR 曲线下面积。

此前先了解一下IOU评判标准：

TP、FP、FN、TN

常见的评判方式，第一位的T,F代表正确或者错误。第二位的P和N代表判断的正确或者错误

True Positive (TP): IoU>IOUthreshold \mathrm{IoU}>I O U_{\text {threshold }}IoU>IOUthreshold (IOU的阈值一般取0.5)的所有检测框数量（同一Ground Truth只计算一次），可以理解为真实框，或者标准答案
False Positive (FP): IoUFalse Negative (FN): 没有检测到的 GT 的数量
True Negative (TN): mAP中无用到

查准率（Precision）: Precision =TPTP+FP=TP all detections =\frac{T P}{T P+F P}=\frac{T P}{\text { all detections }}=TP+FP**TP= all detections TP

查全率（Recall）: Recall =TPTP+FN=TP all ground truths =\frac{T P}{T P+F N}=\frac{T P}{\text { all ground truths }}=TP+FN**TP= all ground truths TP

二者绘制的曲线称为 P-R 曲线：查准率：P 为纵轴y 查全率：R 为横轴x轴，如下图

mAP值即为，PR曲线下的面积。

全部评论(1)

7Dayz

#2 回复于2021-07

nice work