第二课笔记

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

存江发布于2021-07

[第一课笔记](https://blog.csdn.net/weixin_44220832/article/details/119120080)

前言

今天是第二课，主要是了解数据集的获取途径以及数据处理的技巧

一、数据集获取途径

数据集可以从AIStudio，kaggle及天池等平台获取，当然，也可以自己做

图像处理流程

1. 图片数据获取
2. 图片数据清洗
3. 图片数据标注
4. 图片数据预处理
5. 图片数据准备
6. 图片数据增强

图像处理应该是出于项目的最终目的，检查数据是否在预定范围内，是否符合预期，如有不好的则剔除，使得数据可以更好使用，可以更好地提取特征，减少在后期可能出现的问题

二、欠拟合和过拟合
欠拟合
欠拟合很好理解，就是模型没有找到数据集的一般规律，或者说不能很好地总结数据集的特征，使得到的模型精确度不高
过拟合
过拟合，网上的解释是说能在训练数据上有很好的表现，但在测试数据上却表现一般。
对此，我的理解是，应该是在训练中，模型总结出来的一般规律偏离的人们的预期。例如，在口罩识别中，如果我输入的图片都是带着口罩的人，这些人都有一头长发，那过拟合的结果可能是模型只记住了长发，而没有记住口罩，这样，在测试的时候就可能出现光头戴口罩却识别不出来。

作业完成过程
之前没学过人工智能，一切都得从零开始
作业是要求上传图片以及对应的标注文件

首先，下载labelImg，点击课件中的超链接https://github.com/tzutalin/labelImg 下载文件，翻到下面，发现有安装方法

下载Anaconda并安装
建立一个新的文件夹，点击安装文件，根据自己的实际情况勾选选项，将anaconda安装到新建的文件夹
然后要添加环境变量
右键 “此电脑”，找到“高级系统设置”

然后点击用户变量中的 “Path”，添加以下环境变量：

1. D:\anaconda
2. D:\Python\Scripts
3. D:\anaconda\Library\bin
完成后保存关闭窗口

接着点击电脑左下角的可以发现

点击上图中的第三个，也就是Prompt
还记得上面提到GitHub上的安装方法吗？
依次输入以下
conda install pyqt=5
conda install -c anaconda lxml
pyrcc5 -o libs/resources.py resources.qrc
python labelImg.py

完成后就可以进行标注
新建Annotations和JPEGImages
我在TB上找了20张键盘的图片，并把图片放到JPEGImages文件夹
点击labelImg左侧的 Open Dir ,选择到JPEGImages文件夹，再点Change Save Dir，选择到Annotations
按W可以开始标注，框选所需部分后会出现一个窗口，这里输入对应的名字，我用的图片是键盘，则输入keyboard，名字应该是可以随便起的。
标注好一张图片后点击左侧保存，再点Next Image下一张图片

全部评论(1)

存江

#2 回复于2021-07

今天的课有点难，有些代码不太懂，还在研究：（