首页 飞桨领航团 帖子详情
第二节课:AI达人创造营:数据获取与处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 336 0
第二节课:AI达人创造营:数据获取与处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 336 0

第二节课:AI达人创造营:数据获取与处理

数据的获取途径

  • Kaggle
  • 阿里云天池
  • DataFountain
  • 科大讯飞
  • COCO
  • 百度AI studio
  • Paper with code
  • IEEE

数据处理与标注

图片:官方数据处理成VOC或者COCO

  • 图片数据获取
  • 图片数据清洗
  1.   ----初步了解数据,筛选掉不合适的图片
  • 图片数据标注
  • 图片数据预处理data preprocessing。
  1.   ----标准化 standardlization

    一 中心化 = 去均值 mean normallization

      一 将各个维度中心化到0

      一 目的是加快收敛速度,在某些激活函数上表现更好

     一 归一化 = 除以标准差

      一 将各个维度的方差标准化处于[-1,1]之间

      一 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域

 

  • 图片数据准备data preparation(训练+测试阶段)
  1.   ----划分训练集,验证集,以及测试集

 

  • 图片数据增强data augjmentation(训练阶段 )
  1.   ----CV常见的数据增强

       · 随机旋转

       · 随机水平或者重直翻转

       · 缩放

       · 剪裁

       · 平移

       · 调整亮度、对比度、饱和度、色差等等

       · 注入噪声

       · 基于生成对抗网络GAN做数搪增强AutoAugment等

 

纯数据处理完整流程

数据预处理与特征工程

1.感知数据

  ----初步了解数据

  ----记录和特征的数量特征的名称

  ----抽样了解记录中的数值特点描述性统计结果

  ----特征类型

  ----与相关知识领域数据结合,特征融合

2.数据清理

  ----转换数据类型

  ----处理缺失数据

  ----处理离群数据

3.特征变换

  ----特征数值化

  ----特征二值化

  ----OneHot编码

  ----特征离散化特征

  ----规范化

  1.     区间变换
  2.     标准化
  3.     归一化

4.特征选择

  ----封装器法

  1.     循序特征选择
  2.     穷举特征选择
  3.     递归特征选择

  ----过滤器法

  ----嵌入法

5.特征抽取

  ----无监督特征抽取

  1.     主成分分析
  2.     因子分析

  ----有监督特征抽取

 

以CV任务为例:

  • 自定义数据集进行训练
  • 常见标注工具:
  1. Labelimg
  2. Labelme
  3. PPOCRLabel

 

数据预处理方法

  • 图像的本质:位图与矢量图
  • 数据增强(数据量少容易过拟合)

 

模型训练评估

  • 对比试验
  • 可视化
  • 多次调参选择模型
  • 评价模型
0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户