首页 飞桨领航团 帖子详情
飞桨领航团AI达人创造营第二课0728笔记
收藏
快速回复
飞桨领航团 文章AI达人创造营 406 0
飞桨领航团AI达人创造营第二课0728笔记
收藏
快速回复
飞桨领航团 文章AI达人创造营 406 0
一、数据集的获取
比如打开 https://www.kaggle.com/andrewmvd/car-plate-detection 如果只为了单纯训练网络玩玩,可以搜索VOC,点进去看看,是带有xml文件的标注
 

一、介绍下图像处理完整流程
1、图片数据获取
2、图片数据清洗
  ----初步了解数据,筛选掉不合适的图片

3、图片数据标注
4、图片数据预处理data preprocessing。
  ----标准化 standardlization

    一 中心化 = 去均值 mean normallization

      一 将各个维度中心化到0

      一 目的是加快收敛速度,在某些激活函数上表现更好

     一 归一化 = 除以标准差

      一 将各个维度的方差标准化处于[-1,1]之间

      一 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域

5、图片数据准备data preparation(训练+测试阶段)
  ----划分训练集,验证集,以及测试集

6、图片数据增强data augjmentation(训练阶段 )
  ----CV常见的数据增强

       · 随机旋转

       · 随机水平或者重直翻转

       · 缩放

       · 剪裁

       · 平移

       · 调整亮度、对比度、饱和度、色差等等

       · 注入噪声

       · 基于生成对抗网络GAN做数搪增强AutoAugment等

 

二、数据预处理与特征工程

1.感知数据
  ----初步了解数据

  ----记录和特征的数量特征的名称

  ----抽样了解记录中的数值特点描述性统计结果

  ----特征类型

  ----与相关知识领域数据结合,特征融合

2.数据清理
  ----转换数据类型

  ----处理缺失数据

  ----处理离群数据

3.特征变换
  ----特征数值化

  ----特征二值化

  ----OneHot编码

  ----特征离散化特征

  ----规范化

    区间变换

    标准化

    归一化

4.特征选择
  ----封装器法

    循序特征选择

    穷举特征选择

    递归特征选择

  ----过滤器法

  ----嵌入法

5.特征抽取
  ----无监督特征抽取

    主成分分析

    因子分析

  ----有监督特征抽取

 

三、coco数据集举例

VOC格式xml: 27行开始左上角坐标和右下角坐标

coco格式:

用简单切片划分数据集:

shuffle(xmls) 打乱标签

split = int(0.85 * len(xmls)) #划分训练集与验证集

 

四、常见标注工具
  对于图像分类任务,我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务,目前比较流行的数据标注工具是labelimg、labelme,分别用于检测任务与分割任务的标注。

labelimg保存xml

labelme保存json

PPOCRLabel保存txt格式

VOC可以转coco格式  !python tools/x2coco.py \

#划分COCO数据集      !paddlex --split_dataset

五、图像处理

位图的特点:

  由像素点定义一放大会糊
  文件体积较大
  色彩表现丰富逼真

矢量图的特点:

  超矢量定义
  放太不模糊
  文件体积较小
  表现力差

cmap="gray" 变成灰度图

数据增强

六、模型训练与评估

 

 

 

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户