YG Overflow

Kaggle 笔记 : House Price prediction Source : https://www.kaggle.com/serigne/stacked-regressions-top-4-on-leaderboard 1. 把 training set 和 test set 里面的 Id 列，移除（备份到一边） 2. 作出横轴是住房面积纵轴是房价的图像，发现基本上房价和面积呈线性关系，并且发现有些数据住房面积很大但是房价很低，这些属于 outlier data. 把它们从数据集中移除 3. 既然目标是房价预测，我们把 training set 里面的房价分布图画出来这里根据图像发现并不是特别线性 4. 于是想到把 price 这一列求 log ，再画图观察，发现分布更正态了 5. 把 Training set 和 Test set 拼起来，观察 missing data 。填充这些 missing data. 这里作者对着数据提供者的 description ，再加上一些想象把丢失的数据全部补完 6. 把数据集里面其实是 category 的 attribute 从数字表示转化为字符串。比如 OverallCond 这个字段，代表 Rates the overall condition of the house 。它的数值在数据集中是 0 ， 1 ， 2… 10 。但他本质上是 category 。 7. 对数据进行重新编码，把 category 的数据表示为数字比如性别 [‘male’, ’female’] -> [‘1’, ‘0’] ref: https://blog.csdn.net/quintind/article/details/79850455 8. 合并 / 新增变量: 因为对于售价面积是个很重要的因素，作者创建了一个新的变量：总面积 = 地下室面积 + 一楼面积 + 二楼面积 9. 查看各个 attribute 的分布情况，把非正太分布 (skewed features) 的转化为正态分布。这里作者用的是 Box-cox Transf...

Search This Blog

YG Overflow

Posts

Data mining 实战第一弹

Kaggle笔记: House Price prediction