[斯坦福大学2014机器学习教程笔记]第六章-分类回归

时间 2020-04-15

标签斯坦福大学机器学习教程笔记第六分类回归繁體版

原文原文链接

在这节以及接下来几节中，咱们要开始讨论分类问题。这节将告诉咱们为何对于分类问题来讲，使用线性回归并非一个好主意。算法

在分类问题中，你要预测的变量y是一个离散的值，咱们将学习一种叫作逻辑回归(Logistic Regression)的算法，这是当今最流行、使用最普遍的学习算法之一。学习

分类问题的例子有：垃圾邮件分类（判断一封电子邮件是不是垃圾邮件）、分类网上交易（判断某一个交易是不是欺诈，例如是否用盗取的信用卡等等）、肿瘤分类（判断一个肿瘤是恶性的仍是良性的）。在这些问题中，咱们尝试预测的变量y是能够有两个取值的变量（0或1）。咱们用0表示的那一类还能够叫作负类(Negative Class)，用1表示的那一类能够叫作正类(Positive Class)。通常来讲，负类表示没有某样东西，好比说：没有恶性肿瘤。正类表示具备咱们要寻找的东西。可是，什么是正类什么是负类是没有明确规定的。spa

如今咱们要开始讨论只包含0和1两类的分类问题（即二元的分类问题）。那么，咱们要如何开发一个分类算法呢？blog

这个例子的训练集是对肿瘤进行恶性或良性分类。注意到恶性与否只有两个值，0或者1。因此，咱们能够作的就是对于这个给定的训练集，把咱们学过的线性回归算法应用到这个数据集，用直线对数据进行拟合。若是你用直线去拟合这个训练集，你有可能获得以下图的假设直线。开发

若是你想作出预测，你能够将分类器输出的阀值设为0.5（即纵坐标值为0.5），若是假设输出一个大于等于0.5，能够预测y=1，若是小于0.5则预测y=0。在这个特定的例子中，彷佛线性回归作的事情很合理。可是，尝试改变一下问题，将横轴延长一点。假如咱们有另一个训练样本位于右边远处。it

注意这个额外的训练样本，显然它并不会改变什么，假设依然很好。可是，当咱们再增长一个额外的例子，若是咱们这时运行线性回归，咱们会获得另外一条直线（以下图）去拟合数据。此时，若是将阀值设为0.5，根据分析，这显然不是一个好的线性回归。io

因此，将线性回归运用到分类问题中一般不是一个好主意。在增长额外的样本以前，以前的线性回归看起来很好。可是，对数据集进行线性回归，有时会很好，但这不意味着这就是一个很好的方法。由于咱们可能会遇到像增长了一个额外样本以后的问题，这时，效果就比较糟糕了。尽管咱们知道标签y应该取值0或者1，可是若是算法获得的值远大于1或者远小于0的话，仍是会感受很奇怪。变量

因此咱们在接下来的要研究的算法就叫作逻辑回归算法，这个算法的特色是：它的输出值永远在0到1之间。顺便说一下，咱们一般将逻辑回归算法视为一种分类算法。有时候可能由于这个算法的名字中出现了“回归”让人会感到困惑，但逻辑回归算法其实是一种分类算法，它适用于标签y为离散值0或1的状况。bfc