第二节课:AI达人创造营:数据获取与处理
收藏
第二节课:AI达人创造营:数据获取与处理
数据的获取途径
- Kaggle
- 阿里云天池
- DataFountain
- 科大讯飞
- COCO
- 百度AI studio
- Paper with code
- IEEE
数据处理与标注
图片:官方数据处理成VOC或者COCO
- 图片数据获取
- 图片数据清洗
- ----初步了解数据,筛选掉不合适的图片
- 图片数据标注
- 图片数据预处理data preprocessing。
- ----标准化 standardlization
一 中心化 = 去均值 mean normallization
一 将各个维度中心化到0
一 目的是加快收敛速度,在某些激活函数上表现更好
一 归一化 = 除以标准差
一 将各个维度的方差标准化处于[-1,1]之间
一 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
- 图片数据准备data preparation(训练+测试阶段)
- ----划分训练集,验证集,以及测试集
- 图片数据增强data augjmentation(训练阶段 )
- ----CV常见的数据增强
· 随机旋转
· 随机水平或者重直翻转
· 缩放
· 剪裁
· 平移
· 调整亮度、对比度、饱和度、色差等等
· 注入噪声
· 基于生成对抗网络GAN做数搪增强AutoAugment等
纯数据处理完整流程
数据预处理与特征工程
1.感知数据
----初步了解数据
----记录和特征的数量特征的名称
----抽样了解记录中的数值特点描述性统计结果
----特征类型
----与相关知识领域数据结合,特征融合
2.数据清理
----转换数据类型
----处理缺失数据
----处理离群数据
3.特征变换
----特征数值化
----特征二值化
----OneHot编码
----特征离散化特征
----规范化
- 区间变换
- 标准化
- 归一化
4.特征选择
----封装器法
- 循序特征选择
- 穷举特征选择
- 递归特征选择
----过滤器法
----嵌入法
5.特征抽取
----无监督特征抽取
- 主成分分析
- 因子分析
----有监督特征抽取
以CV任务为例:
- 自定义数据集进行训练
- 常见标注工具:
- Labelimg
- Labelme
- PPOCRLabel
数据预处理方法
- 图像的本质:位图与矢量图
- 数据增强(数据量少容易过拟合)
模型训练评估
- 对比试验
- 可视化
- 多次调参选择模型
- 评价模型
0
收藏
请登录后评论