百度飞桨AI达人创造营—

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

Kundezui 发布于2021-07

一、数据集的获取

1、百度AI Studio（https://aistudio.baidu.com/aistudio/index）

进入飞桨官网，点击“数据集”，可在红色箭头处搜索自己所需的数据集或者在右侧蓝色框中数据集贡献达人主页中寻找

2、kaggle（https://www.kaggle.com/）

与AI Studio类似，在kaggle官网红色箭头处搜索自己所需的数据集，注意的是AI Studio搜索可中文可英文，但kaggle上只能英文，毕竟外国网站

3、天池（https://tianchi.aliyun.com/）

来自阿里的天池，在首页“数据集”红色箭头处搜索自己所需的数据集

4、DataFountain（https://www.datafountain.cn/）

5、科大讯飞（https://www.xfyun.cn/service/object-recg）

6、COCO（https://cocodataset.org/#download）

二、图像处理完整流程

1、图片数据获取（数据集的获取）

2、图片数据清洗——去掉不合适的图片

3、图片数据标注

labelimg（https://github.com/tzutalin/labelImg）

labelme（https://github.com/wkentaro/labelme）

以labelme为例，进入github地址后，有各种系统安装的版本，我用的是Windows+Anaconda

不管是labelme还是labelimg，都在安装时差不多，当安装完anaconda后，打开anaconda prompt

第一步创建虚拟环境

// xx是虚拟环境的名称，上图虚拟环境的名称是labelme
conda create -n xx python=3.7

第二步进入新建的虚拟环境

// xx是虚拟环境的名称，上图虚拟环境的名称是labelme
activate xx

第三步安装相关的库（pyqt等等）和labelimg或者labelme

// 亲测，同一个虚拟环境可以同时安装labelme和labelimg
pip install lableme或者pip install labelimg

4、图片数据预处理data preprocessing（标准化standardlization）
中心化（去均值mean normalization）
将各个维度中心化到0，其目的是加快收敛速度，在某些激活函数上表现更好
归一化（除以标准差）
将各个维度的方差标准化处于[-1,1]之间，其目的是提高收敛效率，统一不同输入范围的数据对模型学习的影响，映射到激活函数有效梯度的值域

5、图片数据准备data preparation（训练+测试阶段）
划分训练集，验证集和测试集

6、图片数据增强data augjmentation（训练阶段）
CV常见的数据增强
（1）随机旋转
（2）随机水平或者重直翻转
（3）缩放
（4）剪裁
（5）平移
（6）调整亮度、对比度、饱和度、色差等等
（7）注入噪声
（8）基于生成对抗网络GAN做数搪增强AutoAugment等

三、纯数据处理完整流程（数据预处理与特征工程）
1、感知数据
初步了解数据，记录和特征的数量特征的名称，抽样了解记录中的数值特点描述性统计结果，与相关知识领域数据结合，特征融合

2、数据清理
转换数据类型，处理缺失数据，处理离群数据

3、特征变换
特征数值化，特征二值化，One-hot编码，特征离散化特征，规范化（区间变换、标准化、归一化）

4、特征选择
封装器法（循序特征选择，穷举特征选择，递归特征选择），过滤器法，嵌入法

5、特征抽取
监督学习特征抽取与无监督学习特征抽取（主成分分析，因子分析）