学习笔记数据获取与处理
收藏
课程目的
数据的获取途径
数据处理与标注
数据预处理方法
模型训练评估
一、数据集的获取
百度AI Studio,Kaggle、天池、讯飞等平台
数据获取
清洗
标注
预处理(reshape、标准化):标准化(中心化、归一化) 加快收敛速度、提高收敛效率
图片数据准备data preparation(训练+测试阶段)----划分训练集,验证集,以及测试集
数据增强:
· 随机旋转
· 随机水平或者重直翻转
· 缩放
· 剪裁
· 平移
· 调整亮度、对比度、饱和度、色差等等
· 注入噪声
· 基于生成对抗网络GAN做数搪增强AutoAugment等
纯数据处理完整流程
1.感知数据
----初步了解数据
----记录和特征的数量特征的名称
----抽样了解记录中的数值特点描述性统计结果
----特征类型
----与相关知识领域数据结合,特征融合
2.数据清理
----转换数据类型
----处理缺失数据
----处理离群数据
3.特征变换
4.特征选择
5.特征抽取
Voc-.xml
Coco-.json
常见标注工具:
labelimg .xml
labelme .json
PPOCRLabel 光学字符识别,识别位置与字符,生成3种文件,有自动标注,属于半自动标注工具
图像的本质:位图、矢量图
位图的特点:
由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真
矢量图的特点:
超矢量定义
放太不模糊
文件体积较小
表现力差
数据增加:数据量少的时候容易过拟合
0
收藏
请登录后评论