百度AI达人创造营第二课笔记
收藏
一、数据集获取:
1.百度AI studio 数据集获取
可以直接在数据集上创建项目,数据集会挂载到项目中
2.Kaggle获取数据集
3.天池
4.DataFountain
5.其他常用的数据集官网
科大讯飞
COCO数据集
二、完整流程概述
(1).图像处理完整流程
1.图片数据获取
2.图片数据清洗--删选到不合适的图片
3.图片数据标注
4.图片数据预处理 data preprocessing
维度统一
标准化
中心化:将各个维度中心化到0, 目的是加快收敛速度,在某些激活函数上表现更好
归一化: 将各个维度的方差标准化处于[-1,1]之间,目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
5.图片数据准备--划分训练集,验证集,以及测试集
6.图片数据增强(训练阶段)
(2) 纯数据处理完整流程
皮尔森相关系数:Corr()函数,在0-1之间,为0不相关,越接近1相关性越大
二、数据处理
(1)处理成VOC和COCO
- VOC
- COCO
(2)自定义数据集进行训练
标注工具:
- labelimg :图片标注
- labelme
- PPOCRLabel :光学字符识别,半自动标注
paddlex划分数据集
三、数据处理的方法
- 位图:像素矩阵组成
- 矢量图:数学矢量表现
数据增强:防止过拟合
四、模型训练与评估
数据增强可用,但不能乱用
mAP::评价标准,用于评价一个模型的性能的多个指标
可视化
五、模型推理预测
0
收藏
请登录后评论