首页 飞桨领航团 帖子详情
百度飞桨AI达人创造营暑期第二课——数据获取与处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 383 0
百度飞桨AI达人创造营暑期第二课——数据获取与处理
收藏
快速回复
飞桨领航团 文章AI达人创造营 383 0

本节课程的主要目的:
         1.了解数据的获取途径

         2.掌握数据处理与标注、数据预处理的方法

         3.进行模型的训练与评估

本节课程的主要内容(知识点):
      
 通常,我们的数据来源于各个比赛平台。首先是AIStudio中的数据集,大部分经典数据集例如百度AI Studio ,Kaggle、天池、讯飞等平台(通过关键词搜索获取需要的数据集),或者是Github。还有一些小的平台,需要大家自己去看。通常来说,数据集用于学术目的,有些数据需要申请才能获得链接。

            1.1 Kaggle有趣比较火热的数据集

            1.2 天池

            1.3 DataFountain

            1.4 其他常用的数据集官网(科大讯飞官网、COCO数据集)

 在收集了数据之后我们应该做什么呢 ?   ——   数据清洗

            数据的清洗一般分为三个步骤:转换数据类型、处理缺失数据、处理离群数据。

           首先,我们需要将数据转换为能够处理、适合我们进行操作的类型。由于数据统计中难免会出现一些问题,因此我们需要通过切片等方法处理缺失的数据。由于数据中往往会由于人工输入或记录错误导致一些数据远高于(或低于)正常值,所以我们还要将这些离群的数据进行删除等操作使其不影响我们的模型及所得的结论。

          下面给出纯数据处理的完整流程(来源于项目:AI达人创造营:数据获取与处理):

           1、感知数据
           初步了解数据,记录和特征的数量特征的名称,抽样了解记录中的数值特点描述性统计结果,与相关知识领域数据结合,特征融合

           2、数据清理
           转换数据类型,处理缺失数据,处理离群数据

           3、特征变换
           特征数值化,特征二值化,One-hot编码,特征离散化特征,规范化(区间变换、标准化、归一化)

          4、特征选择
          封装器法(循序特征选择,穷举特征选择,递归特征选择),过滤器法,嵌入法

          5、特征抽取
          监督学习特征抽取与无监督学习特征抽取(主成分分析,因子分析)

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户