【AI达人创造营】优质笔记征集计划

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

文心一言小哥哥发布于2021-07

在飞桨领航团AI达人创造营的学习过程中，相信你一定有不少的收获！分享是致敬开源的第一步，欢迎大家将自己的学习笔记分享到飞桨论坛，在巩固自身知识的同时，也能帮助更多开发者一起进步~

活动时间：7月26日-8月14日

奖励方式：

优质笔记：

每节课由班长推荐、助教审核，评选出10篇优秀笔记送上【百度星辰大海鼠标垫】一个，并且在【文章区】置顶。

热门笔记：

课程期间，我们将对单个笔记阅读量排名前30，且阅读量超过50的同学予以奖励，具体奖励如下：

单帖子阅读量TOP1-10：小度太空船充电宝

单帖子阅读量TOP11-20：旅行折叠水壶

单帖子阅读量TOP21-30：度熊趴趴抱枕

最受欢迎笔记：

课程期间，我们将对单个笔记回复数排名前30，且回复量超过5条以上的同学予以奖励，具体奖励如下：

单帖子回复数TOP1-10：小度太空仓充电宝

单帖子回复数TOP11-20：旅行折叠水壶

单帖子回复数TOP21-30：度熊趴趴抱枕

发帖规则：

1、在飞桨论坛【飞桨领航团板块】发布AI达人营学习笔记，可以是知识总结、炼丹心得、踩坑填坑分享等。

2、标题名称需带上【AI达人创造营】，发帖标签一栏【帖子类型】和【内容标志】需选择“文章”和“AI达人创造营”。

3、每位学员仅能一篇笔记选入最受欢迎笔记奖或热门笔记奖评选，仅奖励一次，以排名高的奖励为准。

附：学习笔记参考示例

机器的思考故事计算机能学会牛顿第二定律吗

https://aistudio.baidu.com/paddle/forum/topic/show/989527

目标检测基础概念笔记IoU

https://aistudio.baidu.com/paddle/forum/topic/show/989556

全部评论(13)

耿

耿嘉阳

#2 回复于2021-07

在百度【AI达人创造营】的数据集的获取途径和数据处理技巧课上，老师讲述了数据的获取途径，有各大竞赛平台等场所。在数据处理方面主要讲述了图像数据处理方法，有数据增强等方法。还讲到要把数据处理成VOC或者COCO。对于用自定义数据集训练，要进行数据标注，常用的工具有labelimg、labelme等。对于模型的训练和评估，进行了对比试验，表现了进行过数据增强的数据相比于不经过数据增强的数据在模型训练上的优势。后面还扩展讲了mAP。

白鱼

#3 回复于2021-07

百度飞桨学习笔记之数据集的获取与处理

1、数据集的获取
1、百度AI Studio数据集大厅

2、Kaggle

3、天池

4、DataFountain

等等数据集网站

2、数据集处理
2.1、图片数据获取
2.2、图片数据清洗
--去掉不合适的图片

2.3、图片数据的标注
2.4、图片数据的预处理
----标准化 standardlization

一中心化 = 去均值 mean normallization

一将各个维度中心化到0

一目的是加快收敛速度,在某些激活函数上表现更好

一归一化 = 除以标准差

一将各个维度的方差标准化处于[-1,1]之间

一目的是提高收敛效率,统一不同输入范围的数据对模型学习的影响,映射到激活函数有效梯度的值域

2.5、图片数据准备（训练+测试阶段）
----划分训练集，验证集，以及测试集

2.6、图片数据增强（训练阶段）
----CV常见的数据增强

· 随机旋转

· 随机水平或者重直翻转

· 缩放

· 剪裁

· 平移

· 调整亮度、对比度、饱和度、色差等等

· 注入噪声

· 基于生成对抗网络GAN做数搪增强AutoAugment等

3、纯数据的处理
3.1、感知数据
----初步了解数据

----记录和特征的数量特征的名称

----抽样了解记录中的数值特点描述性统计结果

----特征类型

----与相关知识领域数据结合，特征融合

3.2、数据清理
----转换数据类型

----处理缺失数据

----处理离群数据

3.3、特征变换
----特征数值化

----特征二值化

----OneHot编码

----特征离散化特征

----规范化

区间变换

标准化

归一化

3.4、特征选择
----封装器法

循序特征选择

穷举特征选择

递归特征选择

----过滤器法

----嵌入法

3.5、特征抽取
----无监督特征抽取

主成分分析

因子分析

----有监督特征抽取

4、自定义数据集进训练

4.1 常见标注工具
对于图像分类任务，我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务，目前比较流行的数据标注工具是labelimg、labelme，分别用于检测任务与分割任务的标注。

主流的标注工具：

labelimg

labelme

PPOCRLabel

5、数据处理方法
5.1图像得本质
我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图。如下图所示：

位图的特点:

由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真

矢量图的特点:

超矢量定义
放太不模糊
文件体积较小
表现力差
5.2 为什么要做这些数据增强
是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。

6、模型训练与评估
介绍mAP：
在机器学习领域中，用于评价一个模型的性能有多种指标，其中几项就是FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)。

mean Average Precision, 即各类别AP的平均值，是AP：PR 曲线下面积。

此前先了解一下IOU评判标准：

TP、FP、FN、TN

常见的评判方式，第一位的T,F代表正确或者错误。第二位的P和N代表判断的正确或者错误

True Positive (TP): IoU>IOUthreshold \mathrm{IoU}>I O U_{\text {threshold }}IoU>IOUthreshold (IOU的阈值一般取0.5)的所有检测框数量（同一Ground Truth只计算一次），可以理解为真实框，或者标准答案
False Positive (FP): IoUFalse Negative (FN): 没有检测到的 GT 的数量
True Negative (TN): mAP中无用到

查准率（Precision）: Precision =TPTP+FP=TP all detections =\frac{T P}{T P+F P}=\frac{T P}{\text { all detections }}=TP+FP**TP= all detections TP

查全率（Recall）: Recall =TPTP+FN=TP all ground truths =\frac{T P}{T P+F N}=\frac{T P}{\text { all ground truths }}=TP+FN**TP= all ground truths TP

二者绘制的曲线称为 P-R 曲线：查准率：P 为纵轴y 查全率：R 为横轴x轴，如下图

mAP值即为，PR曲线下的面积。

JavaRoom

#4 回复于2021-07

好厉害

bjzhb6

#5 回复于2021-07

01创意产生

1.创意都是根据现有的事物改进的，来源于生活

2.开发流程：数据的采集和标注+模型开发+模型部署

3.场景驱动项目，以终为始

一个想法-尝试验证-用项目记录进展

找官方要灵感

o0_落落_0o

#6 回复于2021-08

好棒呀！

Alchemist_W

#7 回复于2021-08

白鱼 #3

百度飞桨学习笔记之数据集的获取与处理 1、数据集的获取 1、百度AI Studio数据集大厅 2、Kaggle 3、天池 4、DataFountain 等等数据集网站 2、数据集处理 2.1、图片数据获取 2.2、图片数据清洗 --去掉不合适的图片 2.3、图片数据的标注 2.4、图片数据的预处理 ----标准化 standardlization 一中心化 = 去均值 mean normallization 一将各个维度中心化到0 一目的是加快收敛速度,在某些激活函数上表现更好一归一化 = 除以标准差一将各个维度的方差标准化处于[-1,1]之间一目的是提高收敛效率,统一不同输入范围的数据对模型学习的影响,映射到激活函数有效梯度的值域 2.5、图片数据准备（训练+测试阶段） ----划分训练集，验证集，以及测试集 2.6、图片数据增强（训练阶段） ----CV常见的数据增强 · 随机旋转 · 随机水平或者重直翻转 · 缩放 · 剪裁 · 平移 · 调整亮度、对比度、饱和度、色差等等 · 注入噪声 · 基于生成对抗网络GAN做数搪增强AutoAugment等 3、纯数据的处理 3.1、感知数据 ----初步了解数据 ----记录和特征的数量特征的名称 ----抽样了解记录中的数值特点描述性统计结果 ----特征类型 ----与相关知识领域数据结合，特征融合 3.2、数据清理 ----转换数据类型 ----处理缺失数据 ----处理离群数据 3.3、特征变换 ----特征数值化 ----特征二值化 ----OneHot编码 ----特征离散化特征 ----规范化区间变换标准化归一化 3.4、特征选择 ----封装器法循序特征选择穷举特征选择递归特征选择 ----过滤器法 ----嵌入法 3.5、特征抽取 ----无监督特征抽取主成分分析因子分析 ----有监督特征抽取 4、自定义数据集进训练 4.1 常见标注工具对于图像分类任务，我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务，目前比较流行的数据标注工具是labelimg、labelme，分别用于检测任务与分割任务的标注。主流的标注工具： labelimg labelme PPOCRLabel 5、数据处理方法 5.1图像得本质我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图。如下图所示： [图片] 位图的特点: [图片] 由像素点定义一放大会糊文件体积较大色彩表现丰富逼真矢量图的特点: 超矢量定义放太不模糊文件体积较小表现力差 5.2 为什么要做这些数据增强是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。 [图片] 6、模型训练与评估介绍mAP：在机器学习领域中，用于评价一个模型的性能有多种指标，其中几项就是FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)。 mean Average Precision, 即各类别AP的平均值，是AP：PR 曲线下面积。此前先了解一下IOU评判标准： [图片] TP、FP、FN、TN 常见的评判方式，第一位的T,F代表正确或者错误。第二位的P和N代表判断的正确或者错误 True Positive (TP): IoU>IOUthreshold \mathrm{IoU}>I O U_{\text {threshold }}IoU>IOUthreshold (IOU的阈值一般取0.5)的所有检测框数量（同一Ground Truth只计算一次），可以理解为真实框，或者标准答案 False Positive (FP): IoUFalse Negative (FN): 没有检测到的 GT 的数量 True Negative (TN): mAP中无用到查准率（Precision）: Precision =TPTP+FP=TP all detections =\frac{T P}{T P+F P}=\frac{T P}{\text { all detections }}=TP+FP**TP= all detections TP 查全率（Recall）: Recall =TPTP+FN=TP all ground truths =\frac{T P}{T P+F N}=\frac{T P}{\text { all ground truths }}=TP+FN**TP= all ground truths TP 二者绘制的曲线称为 P-R 曲线：查准率：P 为纵轴y 查全率：R 为横轴x轴，如下图 [图片] mAP值即为，PR曲线下的面积。

展开

好家伙，至少把后面的公式改正确鸭

bjzhb6

#8 回复于2021-08

可行性

bjzhb6

#9 回复于2021-08

bjzhb6 #5

01创意产生 1.创意都是根据现有的事物改进的，来源于生活 2.开发流程：数据的采集和标注+模型开发+模型部署 3.场景驱动项目，以终为始一个想法-尝试验证-用项目记录进展找官方要灵感

01 把大任务分解成一个个小任务

bjzhb6

#10 回复于2021-08

数据的获取途径

通常，我们的数据来源于各个比赛平台。首先是AIStudio中的数据集，大部分经典数据集例如百度AI Studio ,Kaggle、天池、讯飞等平台（通过关键词搜索获取需要的数据集），或者是Github。还有一些小的平台，需要大家自己去看。通常来说，数据集用于学术目的，有些数据需要申请才能获得链接。

bjzhb6

#11 回复于2021-08

bjzhb6 #5

json文件和voc文件，不同的数据标注格式

COCO格式，文件夹路径样式：

COCO_2017/
├── val2017 # 总的验证集
├── train2017 # 总的训练集
├── annotations # COCO标注
│ ├── instances_train2017.json # object instances（目标实例） ---目标实例的训练集标注
│ ├── instances_val2017.json # object instances（目标实例） ---目标实例的验证集标注
│ ├── person_keypoints_train2017.json # object keypoints（目标上的关键点） ---关键点检测的训练集标注
│ ├── person_keypoints_val2017.json # object keypoints（目标上的关键点） ---关键点检测的验证集标注
│ ├── captions_train2017.json # image captions（看图说话） ---看图说话的训练集标注
│ ├── captions_val2017.json # image captions（看图说话） ---看图说话的验证集标注

VOC格式，文件夹路径样式：

VOC_2017/
├── Annotations # 每张图片相关的标注信息,xml格式
├── ImageSets
│ ├── Main # 各个类别所在图片的文件名
├── JPEGImages # 包括训练验证测试用到的所有图片
├── label_list.txt # 标签的类别数
├── train_val.txt #训练集
├── val.txt # 验证集

bjzhb6

#12 回复于2021-08

bjzhb6 #5

02 自定义数据集

labelimg labelme PPOCR标注文件

数据处理方法

我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图。

位图的特点:

由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真

矢量图的特点:

超矢量定义
放太不模糊
文件体积较小
表现力差

训练可视化

小朋友打怪

#13 回复于2021-08

这个论坛写笔记还是不太方便，能直接传文件就好了

SuperAI*

#14 回复于2021-08

好棒呀！