百度飞桨AI达人创造营Day02丨数据获取与处理

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

疯狂星期一发布于2021-07

1、数据获取

推荐来源：百度AI Studio ,Kaggle、天池、讯飞等平台（通过关键词搜索获取需要的数据集），或者是Github。

House Prices-Advanced Regression Techniques	预测销售价格
Cat and Dog	猫狗分类
Machine Learning from Disaster	预测泰坦尼克号的生存情况并熟悉机器学习基础知识
Barley Remote Sensing Dataset	大麦遥感检测数据集
耶鲁人脸数据库	目标检测任务(人脸检测)
花卉分类数据集
科大讯飞官网
COCO数据集

2、数据处理

a、图片数据获取

b、图片数据清洗----初步了解数据，筛选掉不合适的图片

c、图片数据标注----labelme、easyData等

d、图片数据预处理data preprocessing

----标准化 standardlization

一中心化 = 去均值 mean normallization

一将各个维度中心化到0

一目的是加快收敛速度,在某些激活函数上表现更好

一归一化 = 除以标准差

一将各个维度的方差标准化处于[-1,1]之间

一目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度

e、图片数据预处理data preprocessing----划分训练集，验证集，以及测试集

f、图片数据增强data augjmentation（训练阶段）

----CV常见的数据增强： · 随机旋转· 随机水平或者重直翻转 · 缩放 · 剪裁 · 平移 · 调整亮度、对比度、饱和度、色差等等·

注入噪声· 基于生成对抗网络GAN做数搪增强AutoAugment等

g、纯数据处理完整流程

数据预处理与特征工程
感知数据----初步了解数据----记录和特征的数量特征的名称----抽样了解记录中的数值特点描述性统计结果----特征类型----与相关知识领域数据结合，特征融合

数据清理----转换数据类型----处理缺失数据----处理离群数据

特征变换----特征数值化----特征二值化----OneHot编码----特征离散化特征----规范化：区间变换、标准化、归一化

特征选择----封装器法：循序特征选择、穷举特征选择、递归特征选择----过滤器法----嵌入法

特征抽取----无监督特征抽取：主成分分析、因子分析----有监督特征抽取

3、数据标注

图像：分类、目标检测、语义分割、实例分割、全景分割......

COCO2017数据集介绍
COCO数据集是Microsoft制作收集用于Detection + Segmentation + Localization + Captioning的数据集，作者收集了其2017年的版本，一共有25G左右的图片和600M左右的标签文件。 COCO数据集共有小类80个

VOC简介

Pascal 的全称是模式分析，静态建模和计算学习(Pattern Analysis, Statical Modeling and Computational Learning)。PASCAL VOC 挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。从2005年至今，该组织每年都会提供一系列类别的、带标签的图片，挑战者通过设计各种精妙的算法，仅根据分析图片内容来将其分类，最终通过准确率、召回率、效率

MS COCO的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。

常见标注工具：abelimg、 labelme、PPOCRLabel、easyData等

4、数据预处理

我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图:

位图的特点:由像素点定义一放大会糊、文件体积较大、色彩表现丰富逼真

矢量图的特点:超矢量定义、放大不模糊、文件体积较小、表现力差

为什么要做这些数据增强?

是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

5、模型训练评估

以上对比实验说明，正确的增加数据增强时，可以小幅度提升mAP值。

总结：本次课程主要介绍了数据集获取、数据标注、数据划分、数据增强、训练与预测，及其用数据增强和不用数据增强的对比实验，体现了数据增强在AI学习中的重要性，为后续的使用落地打下基础。