[斯坦福大学2014机器学习教程笔记]第六章-分类回归

    在这节以及接下来几节中,咱们要开始讨论分类问题。这节将告诉咱们为何对于分类问题来讲,使用线性回归并非一个好主意。算法

    在分类问题中,你要预测的变量y是一个离散的值,咱们将学习一种叫作逻辑回归(Logistic Regression)的算法,这是当今最流行、使用最普遍的学习算法之一。学习

    分类问题的例子有:垃圾邮件分类(判断一封电子邮件是不是垃圾邮件)、分类网上交易(判断某一个交易是不是欺诈,例如是否用盗取的信用卡等等)、肿瘤分类(判断一个肿瘤是恶性的仍是良性的)。在这些问题中,咱们尝试预测的变量y是能够有两个取值的变量(0或1)。咱们用0表示的那一类还能够叫作负类(Negative Class),用1表示的那一类能够叫作正类(Positive Class)。通常来讲,负类表示没有某样东西,好比说:没有恶性肿瘤。正类表示具备咱们要寻找的东西。可是,什么是正类什么是负类是没有明确规定的。spa

    如今咱们要开始讨论只包含0和1两类的分类问题(即二元的分类问题)。那么,咱们要如何开发一个分类算法呢?blog

    这个例子的训练集是对肿瘤进行恶性或良性分类。注意到恶性与否只有两个值,0或者1。因此,咱们能够作的就是对于这个给定的训练集,把咱们学过的线性回归算法应用到这个数据集,用直线对数据进行拟合。若是你用直线去拟合这个训练集,你有可能获得以下图的假设直线。开发

    若是你想作出预测,你能够将分类器输出的阀值设为0.5(即纵坐标值为0.5),若是假设输出一个大于等于0.5,能够预测y=1,若是小于0.5则预测y=0。在这个特定的例子中,彷佛线性回归作的事情很合理。可是,尝试改变一下问题,将横轴延长一点。假如咱们有另一个训练样本位于右边远处。it

    注意这个额外的训练样本,显然它并不会改变什么,假设依然很好。可是,当咱们再增长一个额外的例子,若是咱们这时运行线性回归,咱们会获得另外一条直线(以下图)去拟合数据。此时,若是将阀值设为0.5,根据分析,这显然不是一个好的线性回归。io

    因此,将线性回归运用到分类问题中一般不是一个好主意。在增长额外的样本以前,以前的线性回归看起来很好。可是,对数据集进行线性回归,有时会很好,但这不意味着这就是一个很好的方法。由于咱们可能会遇到像增长了一个额外样本以后的问题,这时,效果就比较糟糕了。尽管咱们知道标签y应该取值0或者1,可是若是算法获得的值远大于1或者远小于0的话,仍是会感受很奇怪。变量

    因此咱们在接下来的要研究的算法就叫作逻辑回归算法,这个算法的特色是:它的输出值永远在0到1之间。顺便说一下,咱们一般将逻辑回归算法视为一种分类算法。有时候可能由于这个算法的名字中出现了“回归”让人会感到困惑,但逻辑回归算法其实是一种分类算法,它适用于标签y为离散值0或1的状况。bfc

相关文章
相关标签/搜索