百度飞桨|数据获取与处理（以CV任务为主）第二课笔记

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

脑脑子里养鲸鱼发布于2021-07

1.数据的获取途径

通过AIStudio中的数据集功能可以获得各个比赛平台的大部分数据包括Kaggle、天池、讯飞，Github等，也有很多论文数据集可以自行搜索。

2.数据处理与标注

数据在获取到后，需要了解数据，筛除不适合的样本（即便公开数据集可能也需要筛除一部分）。

如果是自建数据集需要自己进行标准，常用的标注工具有labelimg、labelme、PPOCRLabel、ITK-SNAP(医疗图像数据)、easyDL（百度研发平台，使用比较简单 EasyDL-零门槛AI开发平台 (baidu.com)）。

本人使用的是labelme，首先在anaconda创建虚拟环境。

conda create -n labelme python=3.6
完成后，激活环境，安装labelme（可能需要先安装别的依赖包）

conda activate labelme

conda install labelme=3.16.2
安装成功后，只需要进入添加labelme的虚拟环境，运行命令即可使用：

做完标注的数据通常标注有两种形式，一种是VOC格式（使用txt文件保存标注信息），一种是COCO格式（使用json文件保存标注信息）。不同的格式在训练时Dataset方法上会有区别，也可以直接将两种形式相互转换。

数据预处理方法

数据在训练前一般需要预处理以及增强处理，CV中常见的数据增强包括：随机旋转、随机水平或者重直翻转、缩放、剪裁、平移、调整亮度、对比度、饱和度、色差等等、注入噪声、基于生成对抗网络GAN做数搪增强AutoAugment等。合适的数据增强可以提升模型的表现，且在数据量少的情况下，比较容易造成过拟合，使用更多的数据，更不容易过拟合。

模型训练评估

模型的评估有很多指标，在分类任务中常用的就是Accuray。

分类指标大部分都根据TP、TN、FP、FN。

TP（True Positives）就是“预测为正样本，并且预测对了”（真阳性）
TN（True Negatives）意思是“预测为负样本，而且预测对了”（真阴性）
FP（False Positives）意思是“预测为正样本，但是预测错了”（假阳性）
FN（False Negatives）意思是“预测为负样本，但是预测错了”（假阴性）

基于以上，评测指标有：Accuray=（TP+TN）/(P+N)、Precision、Recall、F1-Score、Sensitivity、Specificity、TPR、FPR、ROC曲线、AUC等。

IoU即交并比，IoU 计算的是 “预测的边框” 和 “真实的边框” 的交集和并集的比值。