数据清洗
收藏
快速回复
AI Studio平台使用 其他数据集 1908 13
数据清洗
收藏
快速回复
AI Studio平台使用 其他数据集 1908 13

我们从网页上爬取的数据很多时候杂乱无章。

我想求一些数据清洗的办法

0
收藏
回复
全部评论(13)
时间顺序
水水水的老师
#2 回复于2020-03

先读取一下数据  看一下数据情况 

0
回复
水水水的老师
#3 回复于2020-03

定义脏数据的标准

0
回复
水水水的老师
#4 回复于2020-03

利用提前定义好的规则filter数据集

0
回复
小泽自信起来
#5 回复于2020-03
定义脏数据的标准

我想问一下,就比如衣服型号sml,三个属性。然后他有些是行这个属性列是空值,我们一般咋处理。是把他赋予中间属性呢还是直接删除

0
回复
小泽自信起来
#6 回复于2020-03
定义脏数据的标准

我一般遇到空值的时候都会选择直接删除。但是要是脏数据太多的时候,数据量会少了不少

0
回复
AIStudio810258
#7 回复于2020-03
先读取一下数据  看一下数据情况 

时间序列能数据能把脏数据直接删除么?还是补0什么的根号些吧?

0
回复
thinc
#8 回复于2020-03
我想问一下,就比如衣服型号sml,三个属性。然后他有些是行这个属性列是空值,我们一般咋处理。是把他赋予中间属性呢还是直接删除

缺特征的肯定删掉啊,总不可能随机给他赋值吧

0
回复
AIStudio810260
#9 回复于2020-03
我一般遇到空值的时候都会选择直接删除。但是要是脏数据太多的时候,数据量会少了不少

缺太多只能删了吧,理论上可以做个聚类填充?

0
回复
thinc
#10 回复于2020-03

重新爬

0
回复
AIStudio810258
#11 回复于2020-03
利用提前定义好的规则filter数据集

生成填补数据对时间序列应该更合理吧。

0
回复
AIStudio810258
#12 回复于2020-03
利用提前定义好的规则filter数据集

比如用加入随机扰动的近似曲线填补缺失的时间序列数据。

0
回复
水水水的老师
#13 回复于2020-03
生成填补数据对时间序列应该更合理吧。

感觉效果都差不多

0
回复
AIStudio810258
#14 回复于2020-03
感觉效果都差不多

这样啊。记得你原来发过时间序列的项目。看来从逻辑推测和实际效果还是得实验看看。

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户