02|数据集笔记
收藏
这节课老师主要讲授了四个方面的内容:数据的获取途径、数据的处理、数据预处理方法以及模型训练评估。
数据集的获取与处理
1.数据集来源
(1)公开数据集官网如Imagenet、coco
(2)专业人士的页面
(3)竞赛平台、kaggle、天池、Aistudio、讯飞等
Coco数据集举例
2. 数据处理
感知数据 数据清理 特征变换 特征选择 特征抽取
3. 数据预处理方法:
数据增强——应对深度学习模型复杂度太高与数据量太少时拟合的问题
图片(统一尺度与大小) 数值:中心化,归一化——优缺点:loss = w1x + w2y;
单一中心化会出现x值过小,y值过大,loss值的变化大 单归一化更新更平缓
纯数据的处理流程:
了解数据的特征——清除缺失数据——调整数据分布
4.模型训练与评估
0
收藏
请登录后评论
好细心
LCSTS数据集有几十万条数据,训练到十几万的时候算力用完了,怎么从数据集断开的位置继续训练?