机器学习（三）：线性回归（polinomial regression多项式回归）

时间 2019-11-10

标签机器学习线性回归 polinomial regression 多项式栏目应用数学繁體版

原文原文链接

首先咱们须要明确一个概念，咱们讨论的线性或者非线性针对的是自变量的系数，而非自变量自己，因此这样的话无论自变量如何变化，自变量的系数若是符合线性咱们就说这是线性的。因此这里咱们也就能够描述一下多项式线性回归。python

由此公式咱们能够看出，自变量只有一个，就是x，只不过x的级数（degree）不一样而已。数据库

咱们此次用的数据是公司内部不一样的promotion level所对应的薪资测试

下面咱们来看一下在Python中是如何实现的spa

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

dataset = pd.read_csv('Position_Salaries.csv')
X = dataset.iloc[:, 1:2].values
# 这里注意：1:2其实只有第一列，与1 的区别是这表示的是一个matrix矩阵，而非单一贯量。
y = dataset.iloc[:, 2].values

接下来，进入正题，开始多项式线性回归：code

from sklearn.preprocessing import PolynomialFeatures
poly_reg = PolynomialFeatures(degree = 1) #degree 就是自变量须要的维度
X_poly = poly_reg.fit_transform(X)
lin_reg_2 = LinearRegression()
lin_reg_2.fit(X_poly, y)

这个过程咱们设置了一元一次的自变量：degree=1 意思是自变量只有一次，至关于简单线性回归
咱们在图像中表示一下：orm

# 图像中显示
plt.scatter(X, y, color = 'red')
plt.plot(X, lin_reg_2.predict(poly_reg.fit_transform(X)), color = 'blue')
plt.title('Truth or Bluff (Polynomial Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

此图像与用简单线性回归表示的图像是同样的blog

# 简单线性回归 图像中显示
plt.scatter(X, y, color = 'red')
plt.plot(X, lin_reg.predict(X), color = 'blue')
plt.title('Truth or Bluff (Linear Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

下面咱们试着改变一下维度，将degree设置成2，其余不改变，执行一下代码看看图像：rem

咱们能够发现整个趋势符合数据的分布。pandas

咱们将degree改为3 和 4 看看结果it

咱们能够发现，当degree=4的时候，基本上已经符合全部点的分布了

咱们经过拆分横坐标将图像变得平滑一些:

X_grid = np.arange(min(X), max(X), 0.1)
X_grid = X_grid.reshape((len(X_grid), 1))
plt.scatter(X, y, color = 'red')
plt.plot(X_grid, lin_reg_2.predict(poly_reg.fit_transform(X_grid)), color = 'blue')
plt.title('Truth or Bluff (Polynomial Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

下面咱们给出一个测试值来试试结果（6,10）

lin_reg_2.predict(poly_reg.fit_transform(6))   
lin_reg_2.predict(poly_reg.fit_transform(10))

与实际值仍是比较接近的。

一下是R的代码

dataset = read.csv('Position_Salaries.csv')
dataset = dataset[2:3]

lin_reg = lm(formula = Salary ~ .,
             data = dataset)

# 将多项式线性回归fit数据集
dataset$Level2 = dataset$Level^2
dataset$Level3 = dataset$Level^3
dataset$Level4 = dataset$Level^4
poly_reg = lm(formula = Salary ~ .,
              data = dataset)

              library(ggplot2)
              ggplot() +
                geom_point(aes(x = dataset$Level, y = dataset$Salary),
                           colour = 'red') +
                geom_line(aes(x = dataset$Level, y = predict(lin_reg, newdata = dataset)),
                          colour = 'blue') +
                ggtitle('Truth or Bluff (Linear Regression)') +
                xlab('Level') +
                ylab('Salary')

# install.packages('ggplot2')
library(ggplot2)
ggplot() +
  geom_point(aes(x = dataset$Level, y = dataset$Salary),
             colour = 'red') +
  geom_line(aes(x = dataset$Level, y = predict(poly_reg, newdata = dataset)),
            colour = 'blue') +
  ggtitle('Truth or Bluff (Polynomial Regression)') +
  xlab('Level') +
  ylab('Salary')

# install.packages('ggplot2')
library(ggplot2)
x_grid = seq(min(dataset$Level), max(dataset$Level), 0.1)
ggplot() +
  geom_point(aes(x = dataset$Level, y = dataset$Salary),
             colour = 'red') +
  geom_line(aes(x = x_grid, y = predict(poly_reg,
                                        newdata = data.frame(Level = x_grid,
                                                             Level2 = x_grid^2,
                                                             Level3 = x_grid^3,
                                                             Level4 = x_grid^4))),
            colour = 'blue') +
  ggtitle('Truth or Bluff (Polynomial Regression)') +
  xlab('Level') +
  ylab('Salary')

# 预测新的数据
predict(lin_reg, data.frame(Level = 6.5))
summaryss(poly_reg)

咱们能够看到模型的系数之间的关系

后面还有还有决策树和森林回归，这样线性回归就写完了，我争取这几天写完，前几天准备申请研究生的writing sample，关于数据库index作了一些，在合适的时候我会把文章放出来，谢谢你们~~但愿你们多多推荐--E·O·F--