AI达人创造营第二课课堂笔记（07.28）

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

噼里啪啦发布于2021-07

数据获取与处理（以CV任务为主）

一、数据集的获取

通常，我们的数据来源于各个比赛平台。首先是AIStudio中的数据集，大部分经典数据集例如百度AI Studio ,Kaggle、天池、讯飞等平台（通过关键词搜索获取需要的数据集），或者是Github。还有一些小的平台，需要大家自己去看。通常来说，数据集用于学术目的，有些数据需要申请才能获得链接。

1. Kaggle有趣比较火热的数据集
预测销售价格:https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data?select=test.csv
猫狗分类:https://www.kaggle.com/tongpython/cat-and-dog
预测泰坦尼克号的生存情况并熟悉机器学习基础知识:https://www.kaggle.com/shuofxz/titanic-machine-learning-from-disaster

2.天池
遥感影像分割:https://tianchi.aliyun.com/dataset/dataDetail?dataId=74952
目标检测任务(人脸检测):https://tianchi.aliyun.com/dataset/dataDetail?dataId=88824

3.DataFountain
图像分类:https://www.datafountain.cn/datasets/6070

4. 其他常用的数据集官网
科大讯飞官网:https://www.xfyun.cn/service/object-recg
COCO数据集:https://cocodataset.org/#download

图像处理完整流程
1. 图片数据获取
2. 图片数据清洗
3. 图片数据标注
4. 图片数据预处理data preprocessing
5. 图片数据准备data preparation(训练+测试阶段)
6. 图片数据增强data augjmentation（训练阶段）

纯数据处理完整流程
数据预处理与特征工程
1.感知数据
----初步了解数据

----记录和特征的数量特征的名称

----抽样了解记录中的数值特点描述性统计结果

----特征类型

----与相关知识领域数据结合，特征融合

2.数据清理
----转换数据类型

----处理缺失数据

----处理离群数据

3.特征变换
----特征数值化

----特征二值化

----OneHot编码

----特征离散化特征

----规范化

区间变换

标准化

归一化

4.特征选择
----封装器法

循序特征选择

穷举特征选择

递归特征选择

----过滤器法

----嵌入法

5.特征抽取
----无监督特征抽取

主成分分析

因子分析

----有监督特征抽取

二.数据处理
不同数据集之间可以转换

对于图像分类任务，我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务，目前比较流行的数据标注工具是labelimg、labelme，分别用于检测任务与分割任务的标注。

标注工具Github地址：

labelimg：https://github.com/tzutalin/labelImg

labelme：https://github.com/wkentaro/labelme

三、数据处理方法
我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图

位图的特点:

1.由像素点定义一放大会糊
2.文件体积较大
3.色彩表现丰富逼真

矢量图的特点:

1.超矢量定义
2.放太不模糊
3.文件体积较小
4.表现力差

为什么要做这些数据增强？
因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。