百度AI达人创造营活动(笔记二)
收藏
数据集的获取与处理
数据集来源:比赛与工业开发实验室公布
数据集获取路径:
(1)首页点开数据集——搜索关键字——挂载到项目
(2)去大佬主页
(3)去竞赛网站寻找:Kaggle、天池等
数据集搜索
数据整理:预处理、标注
常见的数据预处理操作:
(1)图片:reshape,统一尺度、大小
(2)数值:中心化,归一化
中心化与归一化的优缺点:loss = w1x + w2y;
如果只做中心化会出现x上面的值都很小,y值都很大,loss值的变化大归一化会使得梯度的更新更平缓
重点:数据增强
纯数据的处理流程:
了解数据的特征——清除缺失数据——调整数据分布
COCO2017数据集部分数据展示:
.xml数据格式演示
常用标注工具:labeling、labelme、PPOCRLabel
1
收藏
请登录后评论
觉得还不错就给个评论支持一下吧!