数据挖掘实战项目——北京二手房房价分析

时间 2019-11-10

标签数据挖掘实战项目北京二手房房价分析繁體版

原文原文链接

本次实战项目的主要目的是分析北京二手房房价，项目源自博文：入门Python数据分析最好的实战项目（一）和入门Python数据分析最好的实战项目（二）。本篇文章仅记录博主在学习过程当中的思路。segmentfault

数据分析

首先咱们要对数据进行分析，可分为如下几个主要步骤：网络

导入数据
检查缺失值状况并对表格进行简单处理
数据可视化分析

这里咱们重点要讲的是数据可视化分析，即对一些重要对特征逐个画图观察。app

打开表格：
dom

咱们看到上述数据有 11 个特征变量，1 个目标变量 Price。11 个特征分别为：
Direction
District
Elevator
Floor
Garden
Id
Layout
Region
Renovation
Size
Year机器学习

咱们分别对 Elevator, Floor, Layout, Region, Renovation, Size, Year 这 7 个特征进行可视化分析。函数

Elevator 特征分析

代码：性能

# Elevator 特征分析
miss_value = len(df.loc[(df['Elevator'].isnull()), 'Elevator'])
print('Elevator缺失值个数为：' + str(miss_value))

# 移除表格中可能存在的错误的值
df['Elevator'] = df.loc[(df['Elevator']=='有电梯') | (df['Elevator']=='无电梯'), 'Elevator']

# 以楼层大于6的有电梯，小于等于6层没有电梯为标准，填补缺失值
df.loc[(df['Floor']>6) & (df['Elevator'].isnull()), 'Elevator'] == '有电梯'
df.loc[(df['Floor']<=6) & (df['Elevator'].isnull()), 'Elevator'] == '无电梯'

f, [ax1, ax2] = plt.subplots(1, 2, figsize=(20,10))
sns.countplot(df['Elevator'], ax=ax1)
ax1.set_title('有无电梯数量对比')
ax1.set_xlabel('是否有电梯')
ax1.set_ylabel('数量')

sns.barplot(x='Elevator', y='Price', data=df, ax=ax2)
ax2.set_title('有无电梯价格对比')
ax2.set_xlabel('是否有电梯')
ax2.set_ylabel('价格')
plt.show()

执行结果：
学习

分析目的：
分析有无电梯两种二手房对数量和价格。测试

使用方法：
采用seaborn完成可视化。优化

观察结果：
咱们发现 Elevator 特征是有大量缺失值。通常有大量缺失值时，须要根据实际状况考虑。经常使用的方法有平均值/中位数填补法，直接移除，或根据其余特征建模预测等。

这里咱们用填补法。因为有无电梯不是数值，不存在平均值和中位数，这里根据楼层 (Floor) 断有无电梯，通常的楼层大于 6 的都有电梯，而小于等于 6 层的通常都没有电梯。

在填补缺失值后继续观察，有电梯的二手房数量更多，且房价较高。

Floor 特征分析

代码：

# Floor 特征分析
f, ax1 = plt.subplots(figsize=(20,5))
sns.countplot(df['Floor'], ax=ax1)
ax1.set_title('各楼层二手房数量', fontsize=15)
ax1.set_xlabel('楼层')
ax1.set_ylabel('数量')
plt.show()

执行结果：

分析目的：
分析不一样的楼层二手房数量。

使用方法：
采用seaborn完成可视化。

观察结果：
其中 6 层的二手房数量最多，可是单独的楼层特征没有什么意义，由于每一个小区住房的总楼层数都不同，咱们须要知道楼层的相对高度。

此外，楼层与文化也有很重要的联系，好比在中国文化有七上八下，七层可能受欢迎等。通常来讲中间楼层比较受欢迎，价格也高，底层和顶层受欢迎度较低，价格也相对较低。

楼层是一个很是复杂的特征，对房价影响也比较大。

Layout 特征分析

代码：

# Layout特征分析
f, ax1 = plt.subplots(figsize=(20, 20))
sns.countplot(y='Layout', data=df, ax=ax1)
ax1.set_title('房屋户型', fontsize=15)
ax1.set_xlabel('数量')
ax1.set_ylabel('户型')
plt.show()

执行结果：

分析目的：
分析不一样户型的数量。

使用方法：
采用seaborn完成可视化。

观察结果：
这个特征分类下有不少不规则的命名，以上特征是不能做为机器学习模型的数据输入的，须要使用特征工程进行相应的处理。

Region 特征分析

代码：

df_house_count = df.groupby('Region')['Price'].count().sort_values(ascending=False).to_frame().reset_index()
df_house_mean = df.groupby('Region')['PerPrice'].mean().sort_values(ascending=False).to_frame().reset_index()

f, [ax1, ax2, ax3] = plt.subplots(3, 1, figsize=(20,15))
sns.barplot(x='Region', y='PerPrice', palette='Blues_d', data=df_house_mean, ax=ax1)
ax1.set_title('北京各区二手房每平米单价对比', fontsize=15)
ax1.set_xlabel('区域')
ax1.set_ylabel('每平米单价')

sns.barplot(x='Region', y='Price', palette="Greens_d", data=df_house_count, ax=ax2)
ax2.set_title('北京各大区二手房数量对比',fontsize=15)
ax2.set_xlabel('区域')
ax2.set_ylabel('数量')

sns.boxplot(x='Region', y='Price', data=df, ax=ax3)
ax3.set_title('北京各大区二手房房屋总价',fontsize=15)
ax3.set_xlabel('区域')
ax3.set_ylabel('房屋总价')

plt.show()

执行结果：

分析目的：
分析不一样区域的房价和数量，并进行对比。

使用方法：
用pandas的网络透视功能groupby分组排序。
区域特征可视化采用seaborn完成。
颜色使用调色板palette参数，颜色越浅数量越少，反之越多。

观察结果：
二手房每平方米单价对比：西城区的房价最贵均价大约 11 万/平，由于西城在二环以里，且是热门学区房的汇集地。其次是东城大约 10 万/平，而后是海淀大约 8.5 万/平，其它均低于 8 万/平。

二手房房数量对比：从数量统计上来看，海淀区和朝阳区二手房数量最多，约接近 3000 套，由于两者属于大区。其次是丰台区，近几年正在改造建设，需求量大。

二手房房屋总价对比：经过箱型图看到，各大区域房屋总价中位数都都在 1000 万如下，且房屋总价离散值较高，西城最高达到了 6000 万，说明房屋价格特征并非理想的正态分布。

Renovation 特征分析

代码：

# Renovation 特征分析
df['Renovation'].value_counts()

f, [ax1, ax2, ax3] = plt.subplots(1, 3, figsize=(20,5))
sns.countplot(df['Renovation'], ax=ax1)
sns.barplot(x='Renovation', y='Price', data=df, ax=ax2)
sns.boxplot(x='Renovation', y='Price', data=df, ax=ax3)
plt.show()

执行结果：

分析目的：
分析不一样装修程度的二手房数量和房价。

使用方法：
采用seaborn完成可视化。

观察结果：
对于数量来讲，精装修的二手房最多，简装其次；对于价格来讲，毛坯房价格最高，其次是精装修的。

Size 特征分析

代码：

# Size特征分析
f, [ax1, ax2] = plt.subplots(1, 2, figsize=(15,5))

# 建房时间分布状况
sns.distplot(df['Size'], bins=20, ax=ax1, color='r')
sns.kdeplot(df['Size'], ax=ax1, shade=True)

# 建房时间和出售价格的关系
sns.regplot(x='Size', y='Price', data=df, ax=ax2)
plt.show()

# 查看异常值
df.loc[df['Size'] < 10]
df.loc[df['Size'] > 1000]

# 移除上述两种异常值
df = df[(df['Layout']!='叠拼别墅') & (df['Size']<1000)]

# 从新进行可视化发现就没有明显的异常点
sns.regplot(x='Size', y='Price', data=df)
plt.show()

执行结果：

分析目的：
分析不一样大小的二手房和价格的关系。

使用方法：
经过distplot和 kdeplot 绘制柱状图观察 Size 特征的分布状况，属于长尾类型的分布，这说明有不少面积很大且超出正常范围的二手房。

经过 regplot 绘制了 Size 和 Price 之间的散点图，发现 Size 特征基本与Price呈现线性关系，符合基本常识，面积越大，价格越高。

观察结果：
有两组明显的异常点：面积不到 10 平米但价格超出 10000 万和面积超过了 1000 平米价格很低两种状况。

通过查看发现这两组异常值分别是别墅和商用房，所以出现异常，故将其移除再次观察Size分布和Price关系。

这里也说明咱们在观察数据的时候，要紧密结合实际业务需求来分析，才能得出更准确的结果。

Year 特征分析

代码：

# Year 特征分析
grid = sns.FacetGrid(df, row='Elevator', col='Renovation', palette='seismic', size=4)
grid.map(plt.scatter, 'Year', 'Price')
# grid.add_legend()

执行结果：

分析目的：
分析不一样年代对房价变化的影响。

使用方法：
在 Renovation 和 Elevator 的分类条件下，使用 FacetGrid 分析 Year 特征

观察结果：
观察数据可视化图表能够看出，整个二手房房价趋势是随着时间增加而增加的，2000 年之后建造的二手房房价相较于 2000 年之前有很明显的价格上涨。此外，1980年以前几乎不存在有电梯二手房数据，说明1980年以前尚未大面积安装电梯，且在 1980 年以前无电梯二手房中，简装二手房占绝大多数，精装反而不多。

数据挖掘

特征工程

特征工程的目的是让这些特征更友好的做为模型的输入，处理数据的好坏会严重的影响模型性能。

这里咱们对已有的 Layout 特征，Year 特征和 Direction 特征进行处理，建立新特征，删除无用特征，最后进行 One-hot 独热编码。

处理 Layout 特征

df['Layout'].value_counts()

# 移除X房间X卫的格式 非民住
df = df.loc[df['Layout'].str.extract('^\d(.*?)\d.*?') == '室']
df.head()

# 用 str.extract() 方法，将"室"和"厅"都提取出来，单独做为两个新特征
df['Layout_room_num'] = df['Layout'].str.extract('(^\d).*', expand=False).astype('int64')
df['Layout_hall_num'] = df['Layout'].str.extract('^\d.*?(\d).*', expand=False).astype('int64')

处理 Year 特征

# 将连续数值型特征 Year 离散化，作分箱处理
# 如何分箱还要看实际业务需求，这里为了方便，使用了pandas的 qcut 采用中位数进行分割，分割数为8等份
df['Year'] = pd.qcut(df['Year'], 8).astype('object')

df['Year'].value_counts()

处理 Direction 特征

df['Direction'].value_counts()

# 写函数 direct_func 来整理上面较乱的 Direction
def direct_func(x):
    if not isinstance(x,str):
        raise TypeError
    x = x.strip()
    x_len = len(x)
    x_list = pd.unique([y for y in x])
    if x_len != len(x_list):
        return 'no'
        
    if (x_len == 2) & (x not in d_list_two):
        m0 = x[0]
        m1 = x[1]
        return m1+m0
    elif (x_len == 3) & (x not in d_list_three):
        for n in d_list_three:
            if (x_list[0] in n) & (x_list[1] in n) & (x_list[2] in n):
                return n
    elif (x_len == 4) & (x not in d_list_four):
        return d_list_four[0]
    else:
        return x
       
# 经过 apply() 方法将 Direction 数据格式转换
d_list_one = ['东','西','南','北']
d_list_two = ['东西','东南','东北','西南','西北','南北']
d_list_three = ['东西南','东西北','东南北','西南北']
d_list_four = ['东西南北']    
df['Direction'] = df['Direction'].apply(direct_func)
df = df.loc[(df['Direction']!='no')&(df['Direction']!='nan')]

df['Direction'].value_counts()

建立新特征

# 根据对业务的理解，定义新特征，而后观察这些新特征对模型有什么影响

# 根据已有特征建立新特征
df['Layout_total_num'] = df['Layout_room_num'] + df['Layout_hall_num']
df['Size_room_ratio'] = df['Size']/df['Layout_total_num']

删除无用特征

df = df.drop(['Layout','PerPrice','Garden', 'District'], axis=1)

df.head()

One-hot 独热编码
是将定类的非数值型类型量化的一种方法，在pandas中使用 get_dummies() 方法实现。这里使用一个自定义的封装的函数实现了定类数据的自动量化处理。

def one_hot_encoder(df, nan_as_category = True):
    original_columns = list(df.columns)
    categorical_columns = [col for col in df.columns if df[col].dtype == 'object']
    df = pd.get_dummies(df, columns= categorical_columns, dummy_na= nan_as_category)
    new_columns = [c for c in df.columns if c not in original_columns]
    return df, new_columns
    
# 对于object特征进行onehot编码
df, df_cat = one_hot_encoder(df)

特征相关性
对数据通过以上处理后，能够用 seaborn 的 heatmap 方法对特征相关性进行可视化。

colormap = plt.cm.RdBu
plt.figure(figsize=(20, 20))
sns.heatmap(df.corr(), linewidth=0.1, vmax=1.0, square=True,
           cmap=colormap, linecolor='white', annot=True)

heatmap 能够根据颜色观察特征的相关性。颜色偏红或者偏蓝都说明相关系数较大，即两个特征对于目标变量的影响程度类似，也就是说存在严重的重复信息，会形成过拟合现象。

咱们能经过特征相关性分析，找出哪些特征有严重的重叠信息，而后择优选择。

这里还须要注意特征太多有可能会致使 heatmap 图画失败。

建模预测

本次建模主要方法为：使用Cart决策树的回归模型对二手房房价进行分析预测；使用交叉验证方法充分利用数据集进行训练，避免数据划分不均匀的影响；使用GridSearchCV方法优化模型参数；使用R2评分方法对模型预测评分。

数据划分

# 特征变量和目标变量
features = df.drop('Price', axis=1)
prices = df['Price']

# 把分类特征都转成数值型后有{}行{}列
print('北京二手房房价有数据 {0} 条，字段 {1} 个' .format(*df.shape))

# 将数据集划分为训练集与测试集
features = np.array(features)
prices = np.array(prices)

# 导入 sklearn 进行训练测试集划分
from sklearn.model_selection import train_test_split

features_train, features_test, prices_train, prices_test = train_test_split(features, prices, test_size=0.2, random_state=0)

创建模型

# 创建模型
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV

# 经过交叉认证缓解数据集过拟合的现象
# 创建决策树回归模型
# 经过GridSearchCV找到最优深度参数（基于输入数据[X,y] 利于网格搜索找到最优的决策树模型）
def fit_model(X, y):
    
    cross_validator = KFold(10, shuffle=True)
    regressor = DecisionTreeRegressor()
    params = {'max_depth': [1,2,3,4,5,6,7,8,9,10]}
    scoring_fnc = make_scorer(performance_metric)
    grid = GridSearchCV(estimator=regressor, param_grid=params, scoring=scoring_fnc, cv=cross_validator)
    
    # 网格搜索
    grid = grid.fit(X, y)
    return grid.best_estimator_

评估验证

# 计算 R2 分数
from sklearn.metrics import r2_score

def performance_metric(y_true, y_predict):
    score = r2_score(y_true, y_predict)
    
    return score
    
# 调参优化模型
# 经过可视化模型学习曲线，观察是否出现过拟合问题
# visuals 为自定义函数
import visuals as vs

# 分析模型
vs.ModelLearning(features_train, prices_train)
vs.ModelComplexity(features_train, prices_train)
optimal = fit_model(features_train, prices_train)

# 输出最优模型的参数 'max_depth'
print('最优模型的参数 max_depth 是: {} ' .format(optimal.get_params()['max_depth']))

predicted_value = optimal.predict(features_test)
r2 = performance_metric(prices_test, predicted_value)

# 每次交叉验证获得的数据集不一样，所以每次运行的结果也不必定相同
print('最优模型在测试数据上 R^2 分数 {: .2f}' .format(r2))

能够看到，最理想模型的参数max_depth是 10，此时达到了误差与方差的最优平衡。模型在测试数据上的 R2 分数为：0.77，即二手房房价预测的准确率。

以上，完成了一个项目的简单分析。能够改进的方向有如下 3 个：

爬取数据的准确性和完整性
特征的进一步提取
不一样模型的融合与实验，以达到最优效果

不足之处，欢迎指正