首页 飞桨领航团 帖子详情
学习笔记数据获取与处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 465 0
学习笔记数据获取与处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 465 0

课程目的
数据的获取途径
数据处理与标注
数据预处理方法
模型训练评估
一、数据集的获取

 

百度AI Studio,Kaggle、天池、讯飞等平台

 

 

数据获取

清洗

标注

预处理(reshape、标准化):标准化(中心化、归一化) 加快收敛速度、提高收敛效率

图片数据准备data preparation(训练+测试阶段)----划分训练集,验证集,以及测试集

数据增强:

 · 随机旋转

 · 随机水平或者重直翻转

 · 缩放

 · 剪裁

 · 平移

 · 调整亮度、对比度、饱和度、色差等等

 · 注入噪声

 · 基于生成对抗网络GAN做数搪增强AutoAugment等

 

纯数据处理完整流程

 

1.感知数据
----初步了解数据

----记录和特征的数量特征的名称

----抽样了解记录中的数值特点描述性统计结果

----特征类型

----与相关知识领域数据结合,特征融合

2.数据清理
----转换数据类型

----处理缺失数据

----处理离群数据

3.特征变换
4.特征选择


5.特征抽取

   

Voc-.xml

Coco-.json

常见标注工具:

labelimg  .xml

 labelme  .json

PPOCRLabel    光学字符识别,识别位置与字符,生成3种文件,有自动标注,属于半自动标注工具

 

图像的本质:位图、矢量图

位图的特点:

由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真
矢量图的特点:

超矢量定义
放太不模糊
文件体积较小
表现力差


数据增加:数据量少的时候容易过拟合

 

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户