首页 飞桨领航团 帖子详情
第二课-数据获取与处理
收藏
快速回复
飞桨领航团 其他AI达人创造营 1052 0
第二课-数据获取与处理
收藏
快速回复
飞桨领航团 其他AI达人创造营 1052 0

数据获取与处理(以CV任务为主)

一、 数据集的获取
数据集获取平台:Kaggle,天池,DataFountain,科大讯飞官网,COCO数据集

图像处理完整流程:1.图像数据获取
2.图像数据清洗(初步了解数据,筛选掉不合适的图片)
3.图片数据标注
4. 图片数据预处理data preprocessing(标准化)
5. 图片数据准备data preparation(训练+测试阶段)
6. 图片数据增强data augjmentation(训练阶段 )
纯数据处理完整流程:1.感知数据:了解数据等
2.数据清理:转换数据类型,处理数据
3.特征变换:特征数值化,规范化
4.特征选择:封装器法,过滤器法,嵌入法
、 5.特征抽取:有/无监督特征抽取
二.数据处理
COCO数据集是Microsoft制作收集用于Detection + Segmentation + Localization + Captioning的数据集。
  对于图像分类任务,我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务,目前比较流行的数据标注工具是labelimg、labelme,分别用于检测任务与分割任务的标注。
三、 数据处理方法
常见图片有位图和矢量图。
位图的特点:1.由像素点定义一放大会糊
2.文件体积较大
3.色彩表现丰富逼真
矢量图的特点:1.超矢量定义
2.放大不模糊
3.文件体积较小
4.表现力差
数据增强的原因:因为很多深度学习的模型复杂度太高了,且在数据量少的情况下,比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了),表现为的这个模型呢受到了很多无关因素的影响。 所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户