首页 飞桨领航团 帖子详情
AI达人创造营:数据获取与处理(以CV任务为主)
收藏
快速回复
飞桨领航团 文章AI达人创造营 503 0
AI达人创造营:数据获取与处理(以CV任务为主)
收藏
快速回复
飞桨领航团 文章AI达人创造营 503 0

一 数据集的获取
  通常,数据来源于各个比赛平台。百度AI Studio ,Kaggle、天池、讯飞等平台。

二 图像处理流程
1 图片数据获取
2 图片数据清洗
  ----初步了解数据,筛选掉不合适的图片

3 图片数据标注
4 图片数据预处理data preprocessing。
  ----标准化 standardlization

    一 中心化 = 去均值 mean normallization

      一 将各个维度中心化到0

      一 目的是加快收敛速度,在某些激活函数上表现更好

     一 归一化 = 除以标准差

      一 将各个维度的方差标准化处于[-1,1]之间

      一 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域

5 图片数据准备data preparation(训练+测试阶段)
  ----划分训练集,验证集,以及测试集

6 图片数据增强data augjmentation(训练阶段 )
  ----CV常见的数据增强

三 数据处理为coco格式或voc格式

COCO格式,文件夹路径样式:

COCO_2017/
├── val2017 # 总的验证集
├── train2017 # 总的训练集
├── annotations # COCO标注
│ ├── instances_train2017.json # object instances(目标实例) ---目标实例的训练集标注
│ ├── instances_val2017.json # object instances(目标实例) ---目标实例的验证集标注
│ ├── person_keypoints_train2017.json # object keypoints(目标上的关键点) ---关键点检测的训练集标注
│ ├── person_keypoints_val2017.json # object keypoints(目标上的关键点) ---关键点检测的验证集标注
│ ├── captions_train2017.json # image captions(看图说话) ---看图说话的训练集标注
│ ├── captions_val2017.json # image captions(看图说话) ---看图说话的验证集标注

VOC格式,文件夹路径样式:

VOC_2017/
├── Annotations # 每张图片相关的标注信息,xml格式
├── ImageSets
│ ├── Main # 各个类别所在图片的文件名
├── JPEGImages # 包括训练验证测试用到的所有图片
├── label_list.txt # 标签的类别数
├── train_val.txt #训练集
├── val.txt # 验证集

 

 

 

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户