【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型

时间 2019-12-19

标签火炉炼AI 机器学习决策树回归构建房价评估模型繁體版

原文原文链接

【火炉炼AI】机器学习006-用决策树回归器构建房价评估模型

(本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )html

最近几十年，房价一直是中国老百姓心中永远的痛，有人说，中国房价就像女人的无肩带文胸，一半人在疑惑：是什么支撑了它?另外一半人在等待：何时掉下去？而女人，永不可能让它掉下来。就算快掉下来了，提一提仍是又上去了.....git

虽然咱们不能预测中国房价何时崩盘，可是却能够用机器学习来构建房价预测模型，下面咱们使用波士顿房价数据集来创建一个房价评估模型，经过房子所在的地理位置，人口居住特性等因素来综合评估房价。github

1. 分析数据集

本次模型所使用的数据集来自于波士顿房价数据集官方网站，地址为：（http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html）。算法

这个数据集比较小，只有506个样本，每一个样本有13个features, 1个label，关于这14个属性的说明以下图所示：网络

因此咱们须要构建模型，使用前面的13个特征来评估最后的MEDV，即便用13个特征向量来计算房价，这是典型的多元回归问题。虽然能够从官网上直接下载这个数据集，可是sklearn中已经集成了该数据集，咱们能够直接调用。以下代码dom

# 分析数据集
from sklearn import datasets # sklearn自带的datasets中就有Boston房价数据集
housing_data=datasets.load_boston()
dataset_X=housing_data.data # 获取影响房价的特征向量，做为feaure X
dataset_y=housing_data.target # 获取对应的房价，做为label y
# print(dataset_X.shape) # (506, 13) # 一共有506个样本，每一个样本有13个features
# print(dataset_y.shape) # (506,)
# print(dataset_X[:5,:]) # 打印看看features的数值类型和大小，貌似已经normalize.

# 将整个数据集划分为train set 和test set两部分
from sklearn.utils import shuffle
dataset_X,dataset_y=shuffle(dataset_X,dataset_y)
# print(dataset_X[:5,:]) # 确认dataset_X 的确发生了shuffle
num_split=int(0.8*len(dataset_X))
train_X,train_y=dataset_X[:num_split],dataset_y[:num_split]
test_X,test_y=dataset_X[num_split:],dataset_y[num_split:]
# print(train_X.shape) # (404, 13)
# print(test_X.shape) # (102, 13)

# 上面的数据集划分也能够采用下面的方法：
# from sklearn.model_selection import train_test_split
# dataset_y=dataset_y[:,np.newaxis]
# dataset=np.hstack((dataset_X,dataset_y))
# print(dataset.shape)
# print(dataset[:,:3])
# train_set,test_set=train_test_split(dataset,test_size=0.2,random_state=37)
# print(train_set.shape) # (404, 14)
# print(test_set.shape) # (102, 14)

复制代码

上述代码首先调用sklearn.load_boston()来获取波士顿房价数据集，而后将该数据集划分为两部分，其中train set占据80%（即404个样本），test set占据20%（102个样本）。在查看数据集中前面五行的结果时，发现整个数据集已经Normalize，故而此处咱们没有必要进行归一化。机器学习

2. 构建决策树模型

决策树(DecisionTree, DT)是一种常见的用于分类和回归的非参数监督学习方法，目标是建立一个模型，经过从数据特性中推导出简单的决策规则来预测目标变量的值。函数

决策树模型的优势在于：1，简单容易理解，数结构能够可视化表达。2，须要不多的数据准备，其余技术一般须要数据标准化，须要建立虚拟变量，并删除空白值。3，可以处理多输出问题。4，相比于使用神经网络的模型，决策树是白盒模型，结果很容易解释。学习

决策树模型的缺点在于：1，决策树学习可能会生成过于复杂的数结构，不能表明广泛的规则，即模型容易过拟合，修剪机制，设置叶子节点所需的最小样本数目或设置数的最大深度是避免决策树过拟合的必要条件。2，决策树可能不稳定，由于数据中的小变化可能致使生成彻底不一样的树。这个问题能够经过在一个集合中使用多个决策树来减轻。3，实际的决策树学习算法是基于启发式算法的，例如在每一个节点上进行局部最优决策的贪婪算法。这种算法不能保证返回全局最优决策树。经过在集合学习中训练多个树，能够减小这种状况，在这里，特征和样本是随机抽取的。4，有些概念很难学习，由于决策树没法很容易地表达它们，例如XOR、奇偶性或多路复用问题。测试

说了这么多废话，直接看代码吧。。。

# 构建决策树回归模型
from sklearn.tree import DecisionTreeRegressor
decision_regressor=DecisionTreeRegressor(max_depth=4) # 最大深度肯定为4
decision_regressor.fit(train_X,train_y) # 对决策树回归模型进行训练

# 使用测试集来评价该决策树回归模型
predict_test_y=decision_regressor.predict(test_X)

import sklearn.metrics as metrics
print('决策树回归模型的评测结果----->>>')
print('均方偏差MSE：{}'.format(
    round(metrics.mean_squared_error(predict_test_y,test_y),2)))
print('解释方差分：{}'.format(
    round(metrics.explained_variance_score(predict_test_y,test_y),2)))
复制代码

-------------------------------------输---------出--------------------------------

决策树回归模型的评测结果----->>> 均方偏差MSE：13.33 解释方差分：0.81

--------------------------------------------完-------------------------------------

########################小**********结###############################

1. 决策树回归模型的构建很是简单，和线性回归器的构建相似，使用DecisionTreeRegressor获取一个回归器对象便可，模型的训练使用fit函数，预测使用predict函数便可。

2. 简单的决策树回归模型获得的MSE比较大，解释方差分结果也不理想，说明这个模型还有很大的优化空间。

#################################################################

3. 决策树模型的优化

通常的，能够先从数据集上优化，但本项目的数据集是很是成熟的案例，进一步优化的空间不大，因此只能从模型上下手。此处我采用两种优化方法，第一种是优化决策树模型中的各类参数，好比优化max_depth，判断是否能够改进MSE，第二种方式是使用AdaBoost算法来加强模型的准确性。

# 第一种优化方法：改变max depth来下降MSE,提升解释方差分
for depth in range(2,12):
    decision_regressor_test=DecisionTreeRegressor(max_depth=depth) 
    decision_regressor_test.fit(train_X,train_y)
    predict_test_y2=decision_regressor_test.predict(test_X)
    print('depth: {}, MSE: {:.2f}, EVS: {:.2f}'.format(
        str(depth), metrics.mean_squared_error(predict_test_y2,test_y),
        metrics.explained_variance_score(predict_test_y2,test_y)))
复制代码

-------------------------------------输---------出--------------------------------

depth: 2, MSE: 23.83, EVS: 0.62 depth: 3, MSE: 20.98, EVS: 0.68 depth: 4, MSE: 13.33, EVS: 0.81 depth: 5, MSE: 13.00, EVS: 0.83 depth: 6, MSE: 14.36, EVS: 0.83 depth: 7, MSE: 11.73, EVS: 0.86 depth: 8, MSE: 16.18, EVS: 0.83 depth: 9, MSE: 15.74, EVS: 0.83 depth: 10, MSE: 14.67, EVS: 0.83 depth: 11, MSE: 15.02, EVS: 0.84

--------------------------------------------完-------------------------------------

# 第二种优化方法：经过AdaBoost算法来提升模型准确度
from sklearn.ensemble import AdaBoostRegressor
ada_regressor=AdaBoostRegressor(DecisionTreeRegressor(max_depth=7),n_estimators=400)
ada_regressor.fit(train_X,train_y)

# 查看使用AdaBoost算法后模型的MSE 和EVS
predict_test_y=ada_regressor.predict(test_X)

import sklearn.metrics as metrics
print('AdaBoost决策树回归模型的评测结果----->>>')
print('均方偏差MSE：{}'.format(
    round(metrics.mean_squared_error(predict_test_y,test_y),2)))
print('解释方差分：{}'.format(
    round(metrics.explained_variance_score(predict_test_y,test_y),2)))
复制代码

-------------------------------------输---------出--------------------------------

AdaBoost决策树回归模型的评测结果----->>> 均方偏差MSE：7.87 解释方差分：0.9

--------------------------------------------完-------------------------------------

########################小**********结###############################

1，两种优化方法：第一种经过优化max_depth能够发现，在depth=7时获得的MSE最小，且解释方差分最大，故而认定max_depth=7.

2，第二种经过AdaBoost加强算法来优化模型，获得的MSE（7.87）比depth优化最好的MSE(11.73)要小不少，且解释方差分也有了较大提升，说明优化效果比较好。

3，AdaBoost（Adaptive boosting）算法是一种自适应的利用其余系统来加强模型准确性的算法，将不一样版本的算法结果进行组合，用加权汇总的方式得到最终结果。AdaBoost算法在每一个阶段获取的信息都会反馈到模型中，这样学习器就能够在后一阶段重点训练难以分类的样本。

4，固然，对于本模型，还能够继续优化，好比优化决策树的结构，优化决策树的其余参数等。

#################################################################

4. 特征的相对重要性

本项目共有13个特征，但这13个特征对于房价的影响确定是不一样的，好比从直观上来看，学区房对房价影响确定比较大，因此能够计算出各类不一样特征对模型的影响，进而在特征比较复杂的状况下，能够忽略掉影响比较小的特征。

以下两部分代码能够将各类特征的相对重要性绘制到图中。

# 计算不一样特征的相对重要性
def plot_importances(feature_importances, title, feature_names):
    '''将feature_importance绘制到图表中，便于观察， 并把重要性大于5的特征打印出来'''
    # 将重要性都归一化为0-100以内
    feature_importances=100.0*(feature_importances/max(feature_importances))
    
    # 将得分从高到低排序
    index_sorted=np.flipud(np.argsort(feature_importances))
    # 让X坐标轴上的标签居中显示
    pos=np.arange(index_sorted.shape[0])+0.5
    
    # 画条形图
    plt.figure()
    plt.bar(pos,feature_importances[index_sorted],align='center')
    plt.xticks(pos,feature_names[index_sorted])
    plt.ylabel('Relative Importance')
    plt.title(title)
    
    # 把重要性结果打印出来
    print('{} importance list------>>>>>'.format(title))
    for importance,name in zip(feature_importances[index_sorted],
                               feature_names[index_sorted]):
        if importance>5:
            print('feature:{}, importance: {:.2f}'.format(name,importance))
复制代码

decision_regressor7=DecisionTreeRegressor(max_depth=7) # 最大深度肯定为7
decision_regressor7.fit(train_X,train_y) # 对决策树回归模型进行训练
plot_importances(decision_regressor7.feature_importances_,
                 'DT regressor',housing_data.feature_names)
plot_importances(ada_regressor.feature_importances_,
                 'AdaBoost Optimized DT regressor',housing_data.feature_names)
复制代码

-------------------------------------输---------出--------------------------------

DT regressor importance list------>>>>> feature:LSTAT, importance: 100.00 feature:RM, importance: 52.24 feature:DIS, importance: 15.97 feature:PTRATIO, importance: 5.00 AdaBoost Optimized DT regressor importance list------>>>>> feature:LSTAT, importance: 100.00 feature:RM, importance: 46.72 feature:DIS, importance: 21.80 feature:TAX, importance: 7.34 feature:AGE, importance: 7.29 feature:CRIM, importance: 6.51 feature:NOX, importance: 5.32 feature:PTRATIO, importance: 5.29

--------------------------------------------完-------------------------------------

########################小**********结###############################

1，经过上面两幅图的比较，能够看出，各类特征对模型的相对重要性变化很大，两种模型都发现最重要的特征是LSTAT（这和书本《Python机器学习经典实例》中不同。

2，但AdaBoost加强算法貌似可以提高其余小特征的相对重要性，并且两种模型中特征重要性排序也不同。

#################################################################

注：本部分代码已经所有上传到（个人github）上，欢迎下载。

参考资料:

1, Python机器学习经典实例，Prateek Joshi著，陶俊杰，陈小莉译