数据清洗
收藏
我们从网页上爬取的数据很多时候杂乱无章。
我想求一些数据清洗的办法
0
收藏
请登录后评论
先读取一下数据 看一下数据情况
定义脏数据的标准
利用提前定义好的规则filter数据集
我想问一下,就比如衣服型号sml,三个属性。然后他有些是行这个属性列是空值,我们一般咋处理。是把他赋予中间属性呢还是直接删除
我一般遇到空值的时候都会选择直接删除。但是要是脏数据太多的时候,数据量会少了不少
时间序列能数据能把脏数据直接删除么?还是补0什么的根号些吧?
缺特征的肯定删掉啊,总不可能随机给他赋值吧
缺太多只能删了吧,理论上可以做个聚类填充?
重新爬
生成填补数据对时间序列应该更合理吧。
比如用加入随机扰动的近似曲线填补缺失的时间序列数据。
感觉效果都差不多
这样啊。记得你原来发过时间序列的项目。看来从逻辑推测和实际效果还是得实验看看。