[机器学习]回归--(Simple LR and Multiple LR)

时间 2019-11-08

标签机器学习回归 simple multiple 繁體版

原文原文链接

线性回归是最贴近生活的数据模型之一node

简单的线性回归

简单的线性回归公式以下：python

从公式中咱们能够看出，简单线性回归只有一个自变量x1，b1是自变量的系数，y是因变量。x1多是连续型或者离散型的数据，因此咱们须要经过x1找出最合适的系数b1从而获得关于因变量y的曲线。ios

咱们下面用一个例子来讲明，这是一个关于工做经验与薪水之间关系的表格。分布以下图所示web

咱们很容易看出这是符合一个线性回归的模型，下面咱们就要作出回归的函数而且对将来数据进行预测。dom

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd.read_csv('Salary_Data.csv')
X = dataset.iloc[:, :-1].values #除了最后一列的其余列
y = dataset.iloc[:, 1].values   #第二列

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

下面咱们须要作的是经过训练集的X_train与y_train 计算出符合训练集的曲线，而后将测试集的X_test 带入获得的曲线中，获得预测的结果y_pred，最后将预测结果y_pred与测试集中的y_test进行比较，看看是否符合分布，从而肯定预测是否准确。函数

# Fitting Simple LinearRegression to the training set
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train,y_train) # 经过train集找到曲线

# 对测试集进行预测
y_pred = regressor.predict(X_test)

# visualising the Traning set results
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary vs Experience(Traning set)')
plt.xlabel('Year of Experience')
plt.ylabel('Salary')
plt.show()

经过学习咱们能够获得训练曲线学习

下面咱们导入测试数据测试

plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary vs Experience(Traning set)')
plt.xlabel('Year of Experience')
plt.ylabel('Salary')
plt.show()

这里须要注意两点spa

第一，在导入测试集时咱们依然使用训练集获得的曲线，因此咱们的plot函数中参数不便，固然若是你用测试集的数据应该也会获得相同的曲线。3d

第二有的人以为既然须要预测数据应该将y_test 替换成 y_pred。其实不须要这样的。由于咱们y_pred 上的点应该都是和曲线高度重合的

多重线性回归（Multiple Linear Regression）

多重线性回归将会不仅有一个自变量，而且每一个自变量拥有本身的系数且符合线性回归。

在创建多重线性回归以前，有这么几个前提必需要注意一下，这些有助于你判断数据是否适合使用多重线性回归：
1，线性（linearity）
2，同方差（Homoscedasticity）

3，多元正态性（Multivariate normality）

多因素共同影响分布结果

4，错误的独立性（independence of errors）

每个变量产生的错误将会独立的影响预测结果，不会对其余变量产生影响

5，多重共线性的缺少（lack of multicollinearity）

变量之间存在高度相关关系而使得回归估算不许确，如接下来要提到的虚拟变量陷阱（dummy variable trap）有可能触发多重共线性的问题

虚拟变量陷阱（Dummy variable trap）

在回归预测中咱们须要全部的数据都是numeric的，可是会有一些非numeric的数据，好比国家，省，部门，性别。这时候咱们须要设置虚拟变量（Dummy variable）。作法是将此变量中的每个值，衍生成为新的变量，是设为1，否设为0.举个例子，“性别"这个变量,咱们能够虚拟出“男”和"女"两虚拟变量，男性的话“男”值为1，"女"值为,；女性的话“男”值为0，"女"值为1。

可是要注意，这时候虚拟变量陷阱就出现了。就拿性别来讲，其实一个虚拟变量就够了，好比 1 的时候是“男”， 0 的时候是"非男"，即为女。若是设置两个虚拟变量“男”和“女”，语义上来讲没有问题，能够理解，可是在回归预测中会多出一个变量，多出的这个变量将会对回归预测结果产生影响。通常来讲，若是虚拟变量要比实际变量的种类少一个。

因此在多重线性回归中，变量不是越多越好，而是选择适合的变量。这样才会对结果准确预测。

创建模型

咱们能够经过如下五个步骤创建回归模型：（stepwise Regression）

1，确立全部的可能（变量all in）
创建全部的个模型包含全部可能的变量

2, 逆向消除（backward elimination）
(1)选择一个差别等级（significance level）好比SL=0.05， 0.05 意味着此变量对结果有95%的贡献。 P(A|B) = 0.05
(2)将全部的变量放进你的模型中。
(3)选择P值最高的变量，若是P>SL。到第四步，不然结束，完成建模。关于变量P值，统计软件能够计算出并选择最高P值的变量
(4)移除此变量，并从新进行第三步。

有关逆向消除和逐步回归的方法，能够参考一下两个连接：

Backward elimination and stepwise regression
Variable Selection

3, 正向选择（forward selection）
(1)选择一个差别等级（significance level）好比SL=0.05
(2)创建全部的简单回归的模型，并找到最小的P值
(3)确立一个简单模型，并将拥有最小P值的变量加入此模型
(4)若是P>SL,模型创建成功，不然在进行第三步

4，双向消除（bidirectionnal elimination）
同时进行逆向消除和正向选择。

*全部可能的模型：意思是全部变量排列组合成的模型，若是有N个变量，那么一共会有2的N次方个模型（2^N-1）
在R语言中，每个变量后面会用星号表示此变量对回归模型的影响，星号越多越重要。

Stepwise Regression 这是宾夕法尼亚州立大学的讲解。我以为挺不错的
另外，其实这几步不是很难，关键的一点是SL值的肯定。还有就是P值的生成。

如何计算P值（p-value）

假定有两组人群，一组x=0，另外一组x=1。从两组中各随机抽取2个个体，测量Y
的值，如图所示，看看这两组的Y是否相同？
如今各组再多抽取若干个体，数据如图所示，能够计算各组的均数，这两个均
数不在同一条线上，这是从所抽取的样本中估计出来的。从样本中获得的两个
均数不等于两组整体的均数，从样本中获得的两均数距离不等于两个整体均数
的差，t 检验是根据两样本均数及两样本的标准差，计算若是两整体均数相同的
话，抽样获得两样本均数差达如此之大或更大的可能性多大，就是p 值，p值
<0.05，表示二者之间的距离显著。
如今看回归分析，创建回归方程如上所示。从方程中看，当x=0时，Y=β0；当x=1
时，Y=β0 + β1。所以，β0表示X=0组Y的均数，β1表示X=1组Y的均数与X=0组Y的均
数的差，ei是每一个个体与其所在组均数的差。所以回归方程对β1= 0 的检验等同
于t检验两组均数的比较。

用Python进行操做

咱们可使用以前创建的模板，将数据导入。

今天咱们使用一个多变量对商业profit影响的数据集。

在此数据集中，咱们肯定前四个变量 X（R&D Speed, Administration, Marketing Speed, State）为自变量。

最后一个profit为因变量 y。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

因为数据中包含state变量，咱们用虚拟变量代替

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
X[:, 3] = labelencoder.fit_transform(X[:, 3])
onehotencoder = OneHotEncoder(categorical_features = [3])
X = onehotencoder.fit_transform(X).toarray()

#为了不虚拟变量陷阱
X = X[:, 1:] #从1 开始，并不是0

将数据集分为训练集和测试集，咱们选择test size为0.2（4：1）

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

多重线性回归：

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

获得预测结果：

y_pred = regressor.predict(X_test)

咱们比较一下预测结果（y_pred）和实际结果(y_test)中的差别

其实不少结果仍是很接近的。

这样咱们就完成了多元线性回归的建模过程。其实咱们与简单线性回归比较一下，代码彻底相同.

因此在sklearn的线性回归库中没有简单或者多元的区分。可是多元线性回归很难用图像表示，由于包含多个自变量。