首页 飞桨领航团 帖子详情
百度飞桨|数据获取与处理(以CV任务为主)第二课笔记
收藏
快速回复
飞桨领航团 文章AI达人创造营 583 0
百度飞桨|数据获取与处理(以CV任务为主)第二课笔记
收藏
快速回复
飞桨领航团 文章AI达人创造营 583 0

​ 1.数据的获取途径

     通过AIStudio中的数据集功能可以获得各个比赛平台的大部分数据包括Kaggle、天池、讯飞,Github等,也有很多论文数据集可以自行搜索。   

​  

 

2.数据处理与标注

数据在获取到后,需要了解数据,筛除不适合的样本(即便公开数据集可能也需要筛除一部分)。

如果是自建数据集需要自己进行标准,常用的标注工具有labelimg、labelme、PPOCRLabel、ITK-SNAP(医疗图像数据)、easyDL(百度研发平台,使用比较简单 EasyDL-零门槛AI开发平台 (baidu.com))。

本人使用的是labelme,首先在anaconda创建虚拟环境。

conda create -n labelme python=3.6
完成后,激活环境,安装labelme(可能需要先安装别的依赖包)

conda activate labelme

conda install labelme=3.16.2
安装成功后,只需要进入添加labelme的虚拟环境,运行命令即可使用:

 做完标注的数据通常标注有两种形式,一种是VOC格式(使用txt文件保存标注信息),一种是COCO格式(使用json文件保存标注信息)。不同的格式在训练时Dataset方法上会有区别,也可以直接将两种形式相互转换。

 

数据预处理方法

数据在训练前一般需要预处理以及增强处理,CV中常见的数据增强包括:随机旋转、随机水平或者重直翻转、缩放、剪裁、平移、调整亮度、对比度、饱和度、色差等等、注入噪声、基于生成对抗网络GAN做数搪增强AutoAugment等。合适的数据增强可以提升模型的表现,且在数据量少的情况下,比较容易造成过拟合,使用更多的数据,更不容易过拟合。

模型训练评估

模型的评估有很多指标,在分类任务中常用的就是Accuray。

分类指标大部分都根据TP、TN、FP、FN。

TP(True Positives)就是“预测为正样本,并且预测对了”(真阳性)
TN(True Negatives)意思是“预测为负样本,而且预测对了”(真阴性)
FP(False Positives)意思是“预测为正样本,但是预测错了”(假阳性)
FN(False Negatives)意思是“预测为负样本,但是预测错了”(假阴性)

 基于以上,评测指标有:Accuray=(TP+TN)/(P+N)、Precision、Recall、F1-Score、Sensitivity、Specificity、TPR、FPR、ROC曲线、AUC等。

IoU即交并比,IoU 计算的是 “预测的边框” 和 “真实的边框” 的交集和并集的比值。

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户