[斯坦福大学2014机器学习教程笔记]第四章-特征和多项式回归

    经过以前的学习,咱们知道多变量的线性回归。在这节中,将介绍一些可供选择的特征以及如何获得不一样的学习算法。当选择了合适的特征后,这些算法每每是很是有效的。另外还将介绍多项式回归。它使得咱们可以使用线性回归的方法来拟合很是复杂的函数,甚至是非线性函数。算法

    下面以预测房价为例。假设有两个特征,分别是房子临街宽度和房子深度(实际上至关于长?)。下面是咱们想要卖出的房子的图片。函数

    而后咱们就能够创建一个这样的线性回归模型。其中临街宽度是咱们的第一个特征x1,纵深是第二个特征x2。但当咱们在运用线性回归时,咱们不必定非要直接用给出x1和x2做为特征。咱们能够本身创造新的特征。所以,若是我要预测房子的价格,我会作的也许是确认真正可以决定房子大小的我拥有的土地的大小。所以,我可能会创造一个新的特征,我称之为x,临街宽度与纵深的乘积(这就是我拥有的土地的面积)。因而,我将hθ(x)=θ01x 这个式子做为假设,这个式子只用一个特征(个人土地的面积)。有的时候不直接使用给的特征,反而使用本身创造的新的特征,可能会获得一个更好的模型。学习

    与选择特征的想法密切相关的一个概念被称为多项式回归。比方说,有一个这样的住房价格的数据集。spa

    可能会有多个不一样的模型用于拟合.直线彷佛并不能很好地拟合这些数据,所以你可能会想到用像下面给出的二次模型去拟合。因此,选择之一是二次模型。而后,咱们可能获得以下的拟合效果。设计

    可是你可能会以为二次函数模型不合理。由于一个二次函数最终会降下来,可是,咱们并不认为,随着土地面积的增长,价格会降低。所以,咱们可能会选择一个不一样的多项式模型并转而选择使用一个三次函数。如今咱们有了一个三次函数,咱们用它进行拟合。也许咱们会获得以下的拟合效果。也许这条绿色的线对这个数据集拟合得更好,由于它不会在最后降低。blog

    使用多元线性回归的方法,咱们能够对算法作一个简单的修改来实现它。按照咱们以前假设的形式,咱们知道如何去拟合。就像以前的例子,咱们知道hθ(x)=θ01x12x23x3。而如今,若是咱们想拟合这个三次函数模型,咱们讨论的就是hθ(x)=θ0 + θ1(size) + θ2(size)2 + θ3(size)3(size表示房子的面积)观察两个式子,咱们天然就会想到假设x1=size,x2=(size)2,x3=(size)3。而后再应用线性回归的方法。咱们就能够将一个三次函数拟合到数据上面。这里还要再说一件事情:若是像这样选择特征,那么特征缩放就变得更重要了。若是房子的面积取值范围在1-1000,那么房子面积的平方,取值范围就在1-1000000。而第三个特征,房子面积的立方取值范围就在1-100000000。所以,这三个特征的范围有很大的不一样。因此若是使用梯度降低法,特征缩放很是重要。这样才能将值的范围变得具备可比性。图片

    最后一个例子将告诉咱们其实有很大的余地来选择要是有哪些特征。以前咱们谈到这样的二次模型不是最理想的,由于它最后会降低。咱们不但愿选择房子面积的增长,价格会降低。可是除了转而创建一个三次模型之外,咱们也许有其余可选的特征。这里给出另一个合理的选择的例子,他多是hθ(x)=θ0 + θ1(size) + θ2(√size)。变量

    而后,咱们可能获得一条趋势是上升的,可是慢慢变得平缓的曲线。在这个例子中,凭着对平方根函数图像的了解以及对数据形状的了解,经过选择不一样的特征,有时能够获得更好的模型。方法

    在这节中,咱们探讨了多项式回归。也就是如何将一个多项式,如一个二次函数或者一个三次函数,拟合到数据上面。咱们还讨论了咱们能够本身选择使用哪些特征im

    可是,有不少时候会有不少不一样的特征,而咱们该如何决定使用什么特征,也许这彷佛有点难以抉择。在后面的课程中,咱们将学习一些算法,它们会自动选择要使用什么特征。所以,可让算法观察给出的数据,并自动为你选择到底应该选择一个二次函数仍是一个三次函数仍是一个其余的函数。可是在咱们学习那种算法以前,咱们要知道咱们其实能够自由选择使用什么特征,而且经过设计不一样的特征咱们可以用更复杂的函数拟合数据,而不仅是用一条直线去拟合。特别的,你也可使用多项式函数。有时若是从合适的角度来寻找特征,你就能获得一个更符合的数据的模型

相关文章
相关标签/搜索