百度AI达人创造营|第二课、数据集那些事儿

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

傻傻瓜studio 发布于2021-07

百度AI达人创造营

课程设计

课程	内容
第一课	让人拍案叫绝的创意都是如何诞生的
第二课	数据集的获取途径和数据处理的技巧
第三课	深度学习模型训练和关键参数调优详解
第四课	教你5种简单高效的部署与推理方法（一）
第五课	教你5种简单高效的部署与推理方法（二）
第六课	教你5种简单高效的部署与推理方法（三）
第七课	项目全流程实战：以安全帽检测为例
第八课	如何写好一篇高质量的精选项目

本节课你可以学习到：

1、数据的获取途径

2、数据处理与标注

3、数据预处理方法

4、模型训练评估

开始上课

一、数据集的获取

常见的数据集获取方式在一些平台上搜索你需要的数据集，例如百度AI Studio ,Kaggle、天池、讯飞、Github等。

以下为部分热门数据集：

1、预测销售价格（https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data?select=test.csv）

2、猫狗分类（https://www.kaggle.com/tongpython/cat-and-dog）

3、预测泰坦尼克号的生存情况并熟悉机器学习基础知识（https://www.kaggle.com/shuofxz/titanic-machine-learning-from-disaster）

4、遥感影像分割（https://tianchi.aliyun.com/dataset/dataDetail?dataId=74952）

5、目标检测任务(人脸检测)（https://tianchi.aliyun.com/dataset/dataDetail?dataId=88824）

6、图像分类（https://www.datafountain.cn/datasets/6070）

7、COCO数据集（https://cocodataset.org/#download）

接下来是关于图像处理和纯数据处理的完整流程：

图像处理 完整流程：

1、图片数据获取

2、图片数据清洗

------初步了解数据，筛选掉不合适的图片

3、图片数据标注

4、图片数据预处理 data preprocessing

------标准化 standardlization

一中心化 = 去均值 mean normallization

一将各个维度中心化到0

一目的是加快收敛速度,在某些激活函数上表现更好

一归一化 = 除以标准差

一将各个维度的方差标准化处于[-1,1]之间

一目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域

5、图片数据准备data preparation(训练+测试阶段)

------划分训练集，验证集，以及测试集

6、图片数据增强 data augjmentation（训练阶段）

------CV常见的数据增强

· 随机旋转

· 随机水平或者重直翻转

· 缩放

· 剪裁

· 平移

· 调整亮度、对比度、饱和度、色差等等

· 注入噪声

· 基于生成对抗网络GAN做数搪增强AutoAugment等

纯数据处理 完整流程:

1、感知数据

2、数据清理

3、特征变换
----特征数值化

----特征二值化

----OneHot编码

----特征离散化特征

----规范化（区间变换、标准化、归一化）

4、特征选择
----封装器法（循序特征选择、穷举特征选择、递归特征选择）

----过滤器法

----嵌入法

5、特征抽取

拓展小知识:

概率论的小知识，不懂翻书或百度一哈

二、数据处理

1、VOC和COCO两种数据集格式

VOC格式，文件夹路径样式：

COCO格式，文件夹路径样式：

COCO数据集现在有3种标注类型：object instances（目标实例）, object keypoints（目标上的关键点）, 和image

captions（看图说话），使用JSON文件存储。更多请看https://zhuanlan.zhihu.com/p/29393415

（看这个思路更清晰）

2、自定义数据集进行训练

对于图像分类任务，我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务，目前比较流行的数据标注工具是labelimg、labelme，分别用于检测任务与分割任务的标注。

常见标注工具：labelimg（https://github.com/tzutalin/labelImg）

labelme（https://github.com/wkentaro/labelme）

PPOCRLabel（https://github.com/PaddlePaddle/PaddleOCR）

使用教程均可百度

三、数据处理方法

我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图。位图文件大，色彩表现逼真，放大容易模糊，矢量图更像是数学公式的集合，文件小，表现力差，放大不会模糊。

常见的图像处理：

显示图像（灰度图、RGB顺序展示原图、缩略图）、锐化、亮度变换、提高对比度等

为什么要做这些数据增强？

是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

结论：通过对比试验可知，正确的增加数据增强时，可以小幅度提升mAP值。

拓展小知识:

mAP(mean average precision)------目标检测中衡量识别精度的指标

多个类别目标检测中，每个类别都可以根据recall（召回率）和percision（准确率）绘制一条曲线。AP就是该曲线下的

面积，mAP意思是对每一类的AP再求平均。

四、模型推理预测

使用模型进行预测，同时使用pdx.det.visualize将结果可视化，可视化结果将保存到work/PaddleDetection/output/PPYOLO/vdl_log下,载入模型推理保存图片至work/PaddleDetection/output/PPYOLO/img下。