Kaggle 笔记 : House Price prediction Source : https://www.kaggle.com/serigne/stacked-regressions-top-4-on-leaderboard 1. 把 training set 和 test set 里面的 Id 列,移除(备份到一边) 2. 作出横轴是住房面积 纵轴是房价的图像,发现基本上房价和面积呈线性关系,并且发现有些数据住房面积很大 但是房价很低,这些属于 outlier data. 把它们从数据集中移除 3. 既然目标是房价预测, 我们把 training set 里面的房价分布图画出来 这里根据图像发现 并不是特别线性 4. 于是想到把 price 这一列求 log ,再画图观察,发现分布更正态了 5. 把 Training set 和 Test set 拼起来,观察 missing data 。 填充这些 missing data. 这里作者对着数据提供者的 description ,再加上一些想象把丢失的数据全部补完 6. 把数据集里面其实是 category 的 attribute 从数字表示 转化为字符串。比如 OverallCond 这个字段,代表 Rates the overall condition of the house 。它的数值在数据集中是 0 , 1 , 2… 10 。 但他本质上是 category 。 7. 对数据进行重新编码 , 把 category 的数据表示为数字比如性别 [‘male’, ’female’] -> [‘1’, ‘0’] ref: https://blog.csdn.net/quintind/article/details/79850455 8. 合并 / 新增变量: 因为对于售价面积是个很重要的因素,作者创建了一个新的变量:总面积 = 地下室面积 + 一楼面积 + 二楼面积 9. 查看各个 attribute 的分布情况,把非正太分布 (skewed features) 的转化为正态分布。 这里作者用的是 Box-cox Transformation 。 r