数据集笔记

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

云云雨发布于2021-07

一、数据集的获取
1.Kaggle：https://www.kaggle.com
2.天池：https://tianchi.aliyun.com/dataset
3.DataFountain：https://www.datafountain.cn/datasets

二、完整流程概述
1、图像处理完整流程
图片数据获取
图片数据清洗
----初步了解数据，筛选掉不合适的图片
图片数据标注
图片数据预处理data preprocessing
----标准化 standardlization
一中心化 = 去均值 mean normallization
一将各个维度中心化到0
一目的是加快收敛速度,在某些激活函数上表现更好
一归一化 = 除以标准差
一将各个维度的方差标准化处于[-1,1]之间
一目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
图片数据准备data preparation(训练+测试阶段)
----划分训练集，验证集，以及测试集
图片数据增强data augjmentation（训练阶段）
----CV常见的数据增强
· 随机旋转
· 随机水平或者重直翻转
· 缩放
· 剪裁
· 平移
· 调整亮度、对比度、饱和度、色差等等
· 注入噪声
· 基于生成对抗网络GAN做数搪增强AutoAugment等
2、纯数据处理完整流程
1.感知数据
----初步了解数据
----记录和特征的数量特征的名称
----抽样了解记录中的数值特点描述性统计结果
----特征类型
----与相关知识领域数据结合，特征融合
2.数据清理
----转换数据类型
----处理缺失数据
----处理离群数据
3.特征变换
----特征数值化
----特征二值化
----OneHot编码
----特征离散化特征
----规范化
区间变换
标准化
归一化
4.特征选择
----封装器法
循序特征选择
穷举特征选择
递归特征选择
----过滤器法
----嵌入法
5.特征抽取
----无监督特征抽取
主成分分析
因子分析
----有监督特征抽取

三、数据处理的方法
1、数据增强
为什么要做这些数据增强？
是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。
所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

四、图像分类
1、位图
特点
由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真

2、矢量图
特点
超矢量定义
放太不模糊
文件体积较小
表现力差