飞桨教学中关于 "波士顿房价预测任务" 的指标困惑
收藏
快速回复
AI Studio平台使用 问答数据集其他 1285 4
飞桨教学中关于 "波士顿房价预测任务" 的指标困惑
收藏
快速回复
AI Studio平台使用 问答数据集其他 1285 4

文章地址: https://www.paddlepaddle.org.cn/tutorials/projectdetail/2496128 

 

里面罗列 13个影响房屋价格的关键因子,其中对于某些指标对于房价因果关系不是很清楚,或者完全是不明所以, 希望可以有人可以帮忙指导下.

指标 相关性 我的理解(猜测) 困惑
该镇的人均犯罪率 反比 犯罪人少,说明比较人民安居乐业,价格就会高  
占地面积超过 25 平方英尺的住宅用地比例 ? ? 25 平方英尺  ≈ 2.33 平方米,那能住个鬼人, 为啥要大于该值?
非零售商业用地比例 反比 该值越高证明大多说为企业,说明大多数人不是在此处购买房子,所以价格应该低  
是否临近河流 正比 靠近的话意味是休闲好去处,因而想要居住的人比较多,所以价格会高  
一氧化碳浓度 ?   说明汽车比较多,但是能说明啥,多的话可能在上班,也可能在家呀。
每栋房屋的平均客房数 正比 人越多说明租不起房子,所以房价会高  
1940年之前建成的自用单位比例 ?   是什么原因以这个分割线? 自用单位是指什么意思,想说明越高后面大家就不想买房,所以价格会低吗?
到波士顿5个就业中心的加权距离 反比 交通便利,价格高  
到径向公路的可达性指标 ?   径向公路是什么意思,也是在描述交通问题吗
全值财产税率 ?   不懂,税率高代表啥意思
学生与教师比例 反比 老师资源越多,价格就会高,学区房呗  
1000(BK - 0.63)^2,其中BK为黑人占比 ?   黑人占比越高,说明穷? 成反比吗? 另外 0.63 和 1000 是什么出处
低收入人群占比 反比   越穷,房价越低

 

再次希望各位可以回答解决在下的问题,不胜感激

0
收藏
回复
全部评论(4)
时间顺序
十进制到二进制
#2 回复于2022-02

en 首先,理解数据确实能设计更好的模型,它那个应该是25000平方英尺。很多属性并不能根据直观判定,确定是正比还是反比,在线性回归中,要根据最后的模型来确定。

我的意思是,设计模型时要更关注与数据本身的特点,这些都是当初设计数据集的人做出来的特征,他认为这些和房价有关系,我们不一定认为有关系。

你可以根据理解做自己的特征,比如人均犯罪率乘以人数,也许能提高模型精度。

这仅仅是一个示例的数据集,不用太严格的分析他的各个参数的意义。

 

PS:项目求Fork https://aistudio.baidu.com/paddle/forum/topic/show/993503

0
回复
曾几何时我是鱼
#3 回复于2022-02
en 首先,理解数据确实能设计更好的模型,它那个应该是25000平方英尺。很多属性并不能根据直观判定,确定是正比还是反比,在线性回归中,要根据最后的模型来确定。 我的意思是,设计模型时要更关注与数据本身的特点,这些都是当初设计数据集的人做出来的特征,他认为这些和房价有关系,我们不一定认为有关系。 你可以根据理解做自己的特征,比如人均犯罪率乘以人数,也许能提高模型精度。 这仅仅是一个示例的数据集,不用太严格的分析他的各个参数的意义。   PS:项目求Fork https://aistudio.baidu.com/paddle/forum/topic/show/993503
展开

非常感谢您的回复,关于 "设计模型时要更关注与数据本身的特点,这些都是当初设计数据集的人做出来的特征,他认为这些和房价有关系,我们不一定认为有关系" 这句话我能理解,只是我提出困惑的初心是因为他是怎么能找出 13个特征,并且有理由相信这些有关系,是以什么讨论和章法吗,希望可以能过大佬们的解答让我管中窥豹,对自己想做一些算法的时候可以高效的选择特征,而不是大海捞针,因为有一些特征是需要埋点,存在工程上的问题。

 

关于 示例数据集,我是看题者说 "波士顿房价预测是一个经典的机器学习任务,类似于程序员世界的“Hello World”",我就理解为是圣经一般的东西,意味就是逻辑严谨,方便理解,设计精妙的特点,所以我想这些特征肯定是某种程度是精心筛选出来的,所以就反馈该问题,让我这个门外汉在各位面前贻笑大方了,还请大家理解下,不知者无罪,不好意思。

0
回复
十进制到二进制
#4 回复于2022-02

其实我们做特征经常几百个,然后再筛选,他只是挑了13个实际意义比较明显的。最简单的,你可以通过训练xgboost这类模型查看特征的重要程度,然后从头部选择一些好理解的特征。你可以试着只用一部分特征训练模型,也许比都用效果要更好。

所以他拿到的数据,可能是波士顿地区的人口分布,波士顿地区的犯罪比率等许多的数据。然后他自己通过理解制作一些特征,然后筛选出一些具有明确意义的,模型上也比较好的,就成了我们现在看到的数据集。

 

没关系,刚开始遇到任何问题都很正常。

 

PS:项目求Fork https://aistudio.baidu.com/paddle/forum/topic/show/993503

0
回复
十进制到二进制
#5 回复于2022-02

我也写过一个波士顿房价的项目,你可以点进我首页看看,有一些做特征的操作。

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户