多项式回归原理及在sklearn中的使用+pipeline

时间 2020-05-17

原文原文链接

相对于线性回归模型只能解决线性问题，多项式回归可以解决非线性回归问题。dom

拿最简单的线性模型来讲，其数学表达式能够表示为：y=ax+b，它表示的是一条直线，而多项式回归则能够表示成：y=ax²+bx+c,它表示的是二次曲线，实际上，多项式回归能够当作特殊的线性模型，即把x²当作一个特征，把x当作另外一个特征，这样就能够表示成y=az+bx+c,其中z=x²,这样多项式回归实际上就变成线性回归了。函数

下面介绍如何在sklearn中使用多项式回归spa

首先导入相应的库以及创造数据code

1 import numpy as np 2 import matplotlib.pyplot as plt 3 x = np.random.uniform(-3,3,size=100) 4 X = x.reshape(-1,1) 5 y = 0.5 * x**2 + x + 2 + np.random.normal(0,1,100)

数据分布如图所示orm

接下来介绍sklearn中的PolynomialFeatures类：blog

因为多项式回归会产生x的高次项，因此须要对x进行处理，先上代码：ip

1 from sklearn.preprocessing import PolynomialFeatures 2 X = np.arange(1,11).reshape(-1,2) 3 poly = PolynomialFeatures(degree=2) 4 poly.fit(X) 5 X2 = poly.transform(X)

注意：此处的代码是单独的，跟上面的代码没有关系，咱们先看一下X以下数学

它是一个5行2列的矩阵，再看一下X2：it

它是一个5行6列的矩阵，它的第一列是X的第一列或者第二列的0次方，它的第二列和第三列就是X，第四列是X的第一列的平方，第五列是X的第一列与第二列的乘积，第六列是X的第二列的平方，用数学表达式：X = [X₁,X₂],X2=[1,X_1,,X₂,X₁²,X₁*X₂,X₂²]，在PolynomialFeatures中有一个超参数degree，它表明的就是多项式的最高次数。pip

在处理完X以后，咱们就能够将获得的X2以及y送入线性模型去训练，因为在sklearn的线性模型是采用梯度降低法(后续会更新)求解的，故在训练以前须要对数据进行归一化，为了方便一条龙服务，咱们使用sklearn中的Pipeline类，上代码：

1 from sklearn.preprocessing import StandardScaler 2 from sklearn.pipeline import Pipeline 3 poly_reg = Pipeline([ 4     ('poly',PolynomialFeatures(degree=2)), 5     ('std_scaler',StandardScaler()), 6     ('lin_reg',LinearRegression()) 7 ])

说明一下Pipeline如何使用：Pipeline里面须要一个列表，列表里元素是一个个元组，每一个元组表明对数据的处理，元组的第一个参数是处理的别名，随便取，第二个参数是处理的函数，如本例就是第一步构造高次项，第二步归一化，第三步使用线性回归，而后调用的时候sklearn会顺序执行这些步骤，这是sklearn的Pipeline的思想，代码以下：

1 poly_reg.fit(X,y) 2 y_predict = poly_reg.predict(X) 3 plt.scatter(x,y) 4 plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r') 5 plt.show()

训练，预测并画出图示：

固然，degree参数不能设置太大，不然会过拟合。