首页 飞桨领航团 帖子详情
第二节课-数据获取与处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 366 0
第二节课-数据获取与处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 366 0

 

一、数据集获取

1.1、数据集的获取来源

  1. kaggle
  2. 天池
  3. DataFountain
  4. 其他,如科大讯飞官网,COCO数据集

1.2、图像处理流程

  1. 数据集下载
  2. 数据清洗:分析数据,去不合适的图片
  3. 图片数据标注
  4. 数据预处理:使用中心化和归一化来实现标准化
  5. 划分训练集,验证集和测试集
  6. 数据增强(本节重点):随机旋转,随机水平或者垂直翻转,缩放,裁剪,平移,调整亮度、对比度、饱和度、色差,加噪声

1.3、纯数据的处理

  1. 感知数据:初步了解数据,及其特征的选择
  2. 数据清洗:数据类型转换,缺失数据处理,异常数据处理
  3. 特征变换:将特征数字化,规范化
  4. 特征选择:封装器法,过滤器法,嵌入法
  5. 特征抽取:无监督特征抽取(主成分分析,因子分析),有监督特征抽取

二、数据处理

2.1、voc和coco数据集的格式

  1. coco数据集:验证集文件夹val2017, 训练集文件夹trian2017,josn格式的标注文件夹annotations,标注有目标检测,关键点检测和看图说话
  2. voc数据集:验证集的图片文件路径和标注文件路径文件val.txt, 训练集的图片文件路径和标注文件路径文件train.txt,标签类别数文件label_list.txt,所有图像在文件夹JPEGImages里面,xml格式的标注文件夹annotations

2.2、自定义数据集

  1. 常见的标注工具:labelimg(xml文件格式), labelme(json文件格式), PPOCRLabel(txt文件格式)。在anaconda中使用pip install labelimg安装工具,设置好文件夹,按住w开始标注
  2. 制作VOC格式与COCO格式数据集并划分

三、数据处理方法

3.1、图片变换

  1. 锐化
  2. 亮度变换
  3. 提高对比度

3.2、为什么要数据增强

  1. 防止过拟合
  2. 提高模型鲁棒性

四、模型训练与评估

  1. 训练模型
  2. 对比试验
  3. mAP指标介绍:mAP值为PR曲线下的面积,P查准率(精确率),R查全率(召回率)
  4. 模型结果可视化:VisualDL

五、模型推理

作业:在创意里面选一个想实现的方案,制作相关数据集,实现项目落地。

 

2
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户