合成特征和离群值（接上篇的补充）

时间 2019-11-10

标签合成特征离群上篇补充繁體版

原文原文链接

合成特征和离群值

学习目标：app

尝试合成特征

上一次咱们只使用了单个特征，但这是不切实际的，每每咱们须要多个特征，但这次并非使用多个特征，而是建立一个合成特诊学习

total_rooms 和 population 特征都会统计指定街区的相关总计数据。
可是，若是一个街区比另外一个街区的人口更密集，会怎么样？咱们能够建立一个合成特征（即 total_rooms 与 population 的比例）来探索街区人口密度与房屋价值中位数之间的关系。spa

# 建立合成特征
california_housing_dataframe["rooms_per_person"] =california_housing_dataframe["total_rooms"]/california_housing_dataframe["population"]

calibration_data = train_model(
    learning_rate=0.0005,
    steps=500,
    batch_size=1,
    input_feature="rooms_per_person"
)

结果:code

Training model...
RMSE (on training data):
period 00 : 237.29
period 01 : 237.04
period 02 : 236.78
period 03 : 236.53
period 04 : 236.28
period 05 : 236.03
period 06 : 235.78
period 07 : 235.53
period 08 : 235.27
period 09 : 235.02
Model training finished

效果不好，由于RMSE变化很小,咱们能够尝试增大学习速率，*10 learning_rate=0.005blog

Training model...
RMSE (on training data):
period 00 : 235.03
period 01 : 232.52
period 02 : 230.03
period 03 : 227.56
period 04 : 225.13
period 05 : 222.70
period 06 : 220.38
period 07 : 217.95
period 08 : 215.54
period 09 : 213.17
Model training finished.

能够发现RMSE是在逐渐收敛的，学习速率没有过大，继续*10 learning_rate=0.05rem

Training model...
RMSE (on training data):
period 00 : 212.86
period 01 : 190.91
period 02 : 172.64
period 03 : 155.99
period 04 : 149.72
period 05 : 141.27
period 06 : 136.94
period 07 : 134.30
period 08 : 131.94
period 09 : 130.69
Model training finished.

从RMSE的降低速率来看，说明已经接近最小值了，为其增大一点点，+0.005 learning_rate=0.055get

Training model...
RMSE (on training data):
period 00 : 210.61
period 01 : 185.76
period 02 : 166.58
period 03 : 150.86
period 04 : 142.97
period 05 : 136.05
period 06 : 133.06
period 07 : 132.46
period 08 : 131.34
period 09 : 130.55
Model training finished.input

	predictions	targets
count	17000.0	17000.0
mean	170.9	207.3
std	77.4	116.0
min	41.1	15.0
25%	140.6	119.4
50%	168.3	180.4
75%	191.9	265.0
max	3693.8	500.0

Final RMSE (on training data): 130.55it

能够发现结果变化很小，咱们在这里就能够中止了，由于再次尝试下去，要浪费太多的计算量和时间io

识别离群值

经过上图的预测值与目标值的散点图效果，能够发现，
若是是在理想状况下，这些值将位于一条彻底相关的对角线上。
可是如今倒是存在许多异常的散点，若是咱们可以查找到这些异常点的缘由并将其筛除掉，那么效果必定会更好更贴近真实状况

# 尺寸15*6
plt.figure(figsize=(15, 6))
# 1行2列，先画第一个格
plt.subplot(1, 2, 1)
# x，y轴标签
plt.xlabel("predictioon")
plt.ylabel("targets")
# 绘制散点图
plt.scatter(calibration_data["predictions"], calibration_data["targets"])
# 第二个绘制直方图
plt.subplot(1, 2, 2)
california_housing_dataframe["rooms_per_person"].hist()

结果:

从散点图中能够看出，绝大部分的散点聚集在一条竖直的直线上（其实这也并非一条直线，而是由于x轴的分辨率太大了，一格500），还有一些是散乱分布的
为何大部分点会垂直排列，这个缘由咱们先不讲，这不是此次训练目的，咱们的目的是要找出极少出的异常的点
再看直方图，大部分是在0-5这条线上，少数的应该就是异常值了，下面咱们滤掉他们，并看下结果会怎样

california_housing_dataframe["rooms_per_person"] = (
    california_housing_dataframe["rooms_per_person"]).apply(lambda x: min(x, 5))
_ = california_housing_dataframe["rooms_per_person"].hist()

结果:

此次都在0-5以内了

再次训练

calibration_data = train_model(
    learning_rate=0.055,
    steps=500,
    batch_size=5,
    input_feature="rooms_per_person")

结果:
Training model...
RMSE (on training data):
period 00 : 210.41
period 01 : 184.47
period 02 : 160.39
period 03 : 140.40
period 04 : 124.11
period 05 : 117.53
period 06 : 110.61
period 07 : 108.84
period 08 : 108.26
period 09 : 108.65
Model training finished.

	predictions	targets
count	17000.0	17000.0
mean	191.6	207.3
std	50.1	116.0
min	44.8	15.0
25%	159.7	119.4
50%	191.7	180.4
75%	218.9	265.0
max	425.3	500.0

Final RMSE (on training data): 108.65

此次的结果好过之前的每一次，体如今RMSE降低的速度特别快，说明少了不少干扰，其次即是RMSE此次是最小的，说明去除离群值后效果然的是好了不少

plt.scatter(calibration_data["predictions"], calibration_data["targets"])

结果:

如今能够看出散点分布实际上是挺集中的。

以上，结束