首页 飞桨领航团 帖子详情
2021.7.28第二次直播基本内容回顾-数据集获取即数据处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 433 0
2021.7.28第二次直播基本内容回顾-数据集获取即数据处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 433 0
一、数据集获取
 
1. 公开数据集
 
        AiStudio、Kaggle、天池、DataFountain、科大讯飞、COCO数据集、VOC数据集
 
2. 完整流程
 
2.1数据处理流程
  • 图片数据获取
  • 图片数据清洗
  • 图片数据标注
  • 图片数据预处理
  • Data Processing:标准化(中心化、归一化)
    • 中心化:加快收敛速度
    • 归一化:提高收敛效率
  • 图片数据准备(训练集、验证集、测试集)
  • 图片数据增强Data Augmentation(训练阶段)
    • paddle.vision.transform
    • transforms.Compose([
                              transforms.ColorJitter(hue=.05, saturation=.05),
                              transforms.RandomHorizontalFlip(),
                              transforms.RandomRotation(10),
                              #transforms.RandomVerticalFlip(),
                              transforms.Resize((224, 224)),
                              #transforms.RandomCrop((160, 160)),
                              transforms.ToTensor(),
                              transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
                                  
                  ])
2.2 纯数据处理流程(结构化赛题常用、这里不再赘述)
 
二、数据处理
 
1.数据集格式转换
 
COCO数据集Json格式解析、COCO格式转VOC格式
 
2. 自定义数据集处理
 
常见标注工具(labelimg、labelme、PPOCRLabel)
 
三、数据处理方法
 
1. 图片的本质
 
        位图:由像素点定义一放大会糊、文件体积较大、色彩表现丰富逼真
 
        矢量图:超矢量定义、放太不模糊、文件体积较小、表现力差
 
2. 数据增强
 
        增加数据量、减少过拟合
 
        这里放上AiStudio平台内一位老哥写的基于Paddle BaseTransform的数据增强
https://aistudio.baidu.com/aistudio/projectdetail/1357939
 
四、模型的训练与评估
 
1. 对比实验
 
2. map介绍:
 
2.1 IOU
2.2 TP、FP、FN、TN
 
        常见的评判方式,第一位的T,F代表正确或者错误。第二位的P和N代表判断的正确或者错误
 
 
True positives(TP) : 实际为正例且被分类器划分为正例的样本数。
False positives(FP): 实际为负例但被分类器划分为正例的样本数。
False negatives(FN): 实际为正例但被分类器划分为负例的样本数。
True-negatives(TN): 实际为负例且被分类器划分为负例的样本数。 
 
 
        P = TP / (TP + FP)
        R = TP / (TP + FN)
        map为PR曲线下的面积
 
        注意:总体趋势,精度越高,召回越低,当召回达到1时,对应概率分数最低的正样本,这个时候正样本数量除以所有大于等于该阈值的样本数量就是最低的精度值。另外,P-R曲线围起来的面积就是AP值,通常来说一个越好的分类器,AP值越高
 
五、模型预测推理
 
        利用Vistual DL进行可视化。
        这里给出相关链接 https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/03_VisualDL/visualdl_usage_cn.html
0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户