首页 飞桨领航团 帖子详情
第二课笔记
收藏
快速回复
飞桨领航团 文章AI达人创造营 351 0
第二课笔记
收藏
快速回复
飞桨领航团 文章AI达人创造营 351 0


一、数据集的获取
  数据来源于各个比赛平台。首先是AIStudio中的数据集,大部分经典数据集例如百度AI Studio ,Kaggle、天池、讯飞等平台(通过关键词搜索获取需要的数据集),或者是Github。通常来说,数据集用于学术目的,有些数据需要申请才能获得链接。

二、数据预处理

中心化(去均值mean normalization)
将各个维度中心化到0,其目的是加快收敛速度,在某些激活函数上表现更好
归一化(除以标准差)
将各个维度的方差标准化处于[-1,1]之间,其目的是提高收敛效率,统一不同输入范围的数据对模型学习的影响,映射到激活函数有效梯度的值域3、图片数据准备data preparation(训练+测试阶段)
划分训练集,验证集和测试集

4、图片数据增强data augjmentation(训练阶段)
CV常见的数据增强
(1)随机旋转
(2)随机水平或者重直翻转
(3)缩放
(4)剪裁
(5)平移
(6)调整亮度、对比度、饱和度、色差等等

5、感知数据
初步了解数据,记录和特征的数量特征的名称,抽样了解记录中的数值特点描述性统计结果,与相关知识领域数据结合,特征融合

6、数据清理
转换数据类型,处理缺失数据,处理离群数据

7、特征变换
特征数值化,特征二值化,One-hot编码,特征离散化特征,规范化(区间变换、标准化、归一化)

8、特征选择
封装器法(循序特征选择,穷举特征选择,递归特征选择),过滤器法,嵌入法

9、特征抽取
监督学习特征抽取与无监督学习特征抽取

三、 数据处理方法
1. 图像的本质
  我们常见的图片其实分为两种,一种叫位图,另一种叫做矢量图。

位图的特点:

由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真
矢量图的特点:

放太不模糊
文件体积较小
表现力差


四、模型训练与评估:
1. 比对实验

在对数据进行一些变换时,数据的变化

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户