第二节课-数据获取与处理
收藏
一、数据集获取
1.1、数据集的获取来源
- kaggle
- 天池
- DataFountain
- 其他,如科大讯飞官网,COCO数据集
1.2、图像处理流程
- 数据集下载
- 数据清洗:分析数据,去不合适的图片
- 图片数据标注
- 数据预处理:使用中心化和归一化来实现标准化
- 划分训练集,验证集和测试集
- 数据增强(本节重点):随机旋转,随机水平或者垂直翻转,缩放,裁剪,平移,调整亮度、对比度、饱和度、色差,加噪声
1.3、纯数据的处理
- 感知数据:初步了解数据,及其特征的选择
- 数据清洗:数据类型转换,缺失数据处理,异常数据处理
- 特征变换:将特征数字化,规范化
- 特征选择:封装器法,过滤器法,嵌入法
- 特征抽取:无监督特征抽取(主成分分析,因子分析),有监督特征抽取
二、数据处理
2.1、voc和coco数据集的格式
- coco数据集:验证集文件夹val2017, 训练集文件夹trian2017,josn格式的标注文件夹annotations,标注有目标检测,关键点检测和看图说话
- voc数据集:验证集的图片文件路径和标注文件路径文件val.txt, 训练集的图片文件路径和标注文件路径文件train.txt,标签类别数文件label_list.txt,所有图像在文件夹JPEGImages里面,xml格式的标注文件夹annotations
2.2、自定义数据集
- 常见的标注工具:labelimg(xml文件格式), labelme(json文件格式), PPOCRLabel(txt文件格式)。在anaconda中使用pip install labelimg安装工具,设置好文件夹,按住w开始标注
- 制作VOC格式与COCO格式数据集并划分
三、数据处理方法
3.1、图片变换
- 锐化
- 亮度变换
- 提高对比度
3.2、为什么要数据增强
- 防止过拟合
- 提高模型鲁棒性
四、模型训练与评估
- 训练模型
- 对比试验
- mAP指标介绍:mAP值为PR曲线下的面积,P查准率(精确率),R查全率(召回率)
- 模型结果可视化:VisualDL
五、模型推理
作业:在创意里面选一个想实现的方案,制作相关数据集,实现项目落地。
2
收藏
请登录后评论