线性回归—寻找练习时长与成绩之间的关系

时间 2019-12-05

原文原文链接

你刻意练习了么？

在刻意练习这本书里，做者用大量的数据和例子来阐述这么一个观点：任何人利用正确的方法进行刻苦的练习，均可以在某个领域作到卓越。其中一个例子就是对小提琴学生作的调研。他把学生分为三组(即优秀，优异和最杰出三个小组)，他发现他们之间最重要的差异是练习的时长，天生的天赋虽然刻意在刚开始能让人学习的更快，可是从长期来讲，并无起到决定性的做用。在18岁以前，优秀的学平生均训练时长是3420小时，优异的学生是5301小时，而最杰出的学生练习时长达到了7401小时。做者以此来证实任何人通过刻苦练习即可以达到杰出的水平。

线性回归

那么咱们假设刻意练习里的结论是正确的，咱们假设有一组练习时长与数学成绩的数据。练习时长(h/w)|成绩

那咱们该如何去寻找练习时长与成绩之间的关系呢？若是找到了这个关系，在知道一个学生的练习时长的状况下，即可以预测出他的成绩。咱们来假定练习时长与成绩是一个线性的关系，那么一个假设的关系函数能够用以下式子表示:

若是样本的数量为m, 那么咱们能够求得相对于这个关系的方差

取其平均值，则能够表示为

J(θ) 越小，说明咱们的预测将会越准确。因此问题求解转换成了求使得J(θ)最小的θ值，即minJ(θ)

咱们能够随便给定一个θ值，而后在逐步缩小范围，当θ值稳定在一个数值的时候，说明找到了一个值是能够另θ最小的。逐步缩小范围的步骤能够用以下操做:

经过这个方法得出了θ值后，便肯定了刚开始定义的h(θ)，利用这个函数即可以预测出练习时长和成绩之间的关系。而这种方法即是机器学习中的线性回归。而求解θ的过程即是梯度降低算法。

求出θ后，即可以将θ代入h(θ)从而获得成绩和练习时长的关系。

线性回归Python实现

首先咱们来实现$J(\theta)$，笔者使用Numpy作数值计算的库，使用matplotlib作数据的可视化。

代价函数

根据上面提到的

咱们来定义compute_cost函数，只须要按照公式转化为矩阵运算便可。

def compute_cost(X, y, theta):
    m = y.size
    prediction = X.dot(theta) - y
    sqr = np.power(prediction, 2)
    cost = (1 / (2 * m)) * np.sum(sqr)
    return cost复制代码

咱们能够将代价函数与theta的关系可视化出来:

def plot_J_history(X, y):
    theta0_vals = np.linspace(-10, 10, 100)
    theta1_vals = np.linspace(-1, 4, 100)

    J_vals = np.zeros((theta0_vals.size, theta1_vals.size))

    for i in range(theta0_vals.size):
        for j in range(theta1_vals.size):
            theta = np.array([theta0_vals[i], theta1_vals[j]])
            t = compute_cost(X, y, theta)
            J_vals[i, j] = t

    theta_x, theta_y = np.meshgrid(theta0_vals, theta1_vals)

    fig = plt.figure()
    ax = fig.gca(projection='3d')
    ax.plot_surface(theta_x, theta_y, J_vals)

    ax.set_xlabel(r'$\theta$0')
    ax.set_ylabel(r'$\theta$1')
    plt.show()

plotData.plot_J_history(X, y)复制代码

得出的图像大概是:

而这个图像最低的点，就是须要经过递归降低算法求出的点。

递归降低

上述的递归降低的微分表达式能够转化为数值表达式

用python则能够表示为:

def gradient_descent(X, y, theta, alpha, num_iters):
    m = y.size
    J_history = np.zeros((num_iters))

    for i in range(0, num_iters):
        prediction = X.dot(theta) - y
        delta = prediction.dot(X)
        theta = theta - alpha * (1 / m) * delta
        J_history[i] = compute_cost(X, y, theta)

    return theta, J_history复制代码

咱们能够调用该函数求解$\theta$

theta = np.zeros((2,))
iterations = 1500
alpha = 0.01

theta, J_history = gradient_descent(X, y, theta, alpha, iterations)复制代码

求出$\theta$后代入$h(\theta)$就能够得出成绩与练习时长的关系。

最后

其实，看起来很麻烦，可是利用sklearn分装好的算法，只须要几行就能够搞定线性回归

from sklearn.linear_model import LinearRegression
... 导入训练数据
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)复制代码

这样就行了，emmm...