吴恩达机器学习笔记-Logistic回归模型

时间 2019-12-12

原文原文链接

回归函数

在逻辑回归模型中咱们不能再像以前的线性回归同样使用相同的代价函数，不然会使得输出的结果图像呈现波浪状，也就是说再也不是个凸函数。代价函数的表达式以前有表示过,这里咱们把1/2放到求和里面来。算法

$$ J(\theta) = \frac{1}{m}\sum_{i=1}^{m}\frac{1}{2}(h_\theta(x^(i))-y^(i))^2 $$机器学习

这里的求和部分咱们能够表示为：函数

$$ Cost(h_\theta(x(i)),y) $$学习

很显然，若是咱们把在以前说过的分类问题的假设函数带进去，即$h_\theta(x) = \frac{1}{1+e^{-z}}$，获得的结果可能就是上述所说的不断起伏的情况。若是这里使用梯度降低法，不能保证能获得全局收敛的值，这个函数就是所谓的非凸函数。所以咱们须要找一个不一样的代价函数，而且是个凸函数，使得咱们可使用好的算法并找到全局最小值。这个代价函数以下所示：优化

咱们能够画出$J(\theta)$的图像以下所示，分别为当y=1和y=0时的图像：spa

那根据图像咱们能够得出结论：code

$$ Cost(h_\theta(x),y) = 0 \quad if \quad h_\theta(x) = y \\ Cost(h_\theta(x),y) \rightarrow \infty \quad if \quad y = 0 \quad and \quad h_\theta(x) \rightarrow 1 \\ Cost(h_\theta(x),y) \rightarrow \infty \quad if \quad y = 1 \quad and \quad h_\theta(x) \rightarrow 0 $$rem

若是y的值为0，则当假设函数输出0时代价函数也为0，若是假设函数趋向于1，则代价函数趋向于无穷大；若是y的值为1，则当假设函数输出1时代价函数为0，若是假设函数趋向于0，则代价函数趋向于无穷大。同步

上述的代价函数能够简化成以下所示：it

$$ Cost(h_\theta(x),y) = -ylog(h_\theta(x)) - (1-y)log(1-h_\theta(x)) $$

若y=1则第二项为0，若y=0则第一项为0，所以此等式和上述的分段描述的函数是等价的。
那么能够写出完整的代价函数：

用向量表示则是：

梯度降低

咱们以前有讲过梯度降低算法的概念：

将公式带入进行导数计算后获得：

用向量法表示：

固然要注意这个算法和咱们在线性回归中的方法同样，咱们须要同步的更新全部的$\theta$的值。

高级优化

换个角度来看梯度降低的话，实际上就是咱们有一个代价函数$J(\theta)$，咱们须要使它最小化。咱们要作的就是编写代码来计算输入$\theta$时，获得$J(\theta)$和$J(\theta)$对$\theta_j$的偏导。梯度降低本质上就是不断重复这个过程来更新参数$\theta$。也就是说梯度降低就是编写代码计算出$J(\theta)$和$J(\theta)$的偏导带入梯度降低公式中，而后它就能够为咱们最小化这个函数。实际上对于梯度降低而言，不是必定要计算出$J(\theta)$的值，但若是为了能更好的监控到$J(\theta)$的收敛性，须要本身编写代码来计算代价函数和偏导性。
除了梯度降低以外还有一些其余算法来优化代价函数。包括共轭梯度法BFGS和L-BFGS还有Conjugate gradient。这些算法相对梯度降低算法更高级但同时也是更加的复杂。这些算法都暂时不在当前学习的范畴内。不过这里能够简单说一下他们的特性：

不须要手动选择学习速率$\alpha$
每每比梯度降低算法要快一点
但相对来讲更加的复杂

咱们能够经过写一个方法来计算$J(\theta)$和$\frac{\partial}{\partial\theta_j}J(\theta)$的值：

function [jVal, gradient] = costFunction(theta)
    jVal = [...code to compute J(theta)...];
    gradient = [...code to compute derivative of J(theta)...];
end

其中jVal就是咱们代价函数的值，第二个就是梯度。下图就是一个简单的例子以及对应的octave的代码：

多类别分类问题

接下来咱们来介绍多类别的分类问题，也就是说咱们的类别可能不止两种。好比天气多是晴天、阴天、雨天，或者邮件分类可能包括工做、朋友、垃圾邮件等等。那这个时候的y={0,1}就再也不适用了，而是y={0,1,2...,n}。下图中，左边表明的是以前说的二元分类问题的数据集，有两种不一样的符号表示；右边的是多类别分类问题，用三种不一样的符号表示三个不一样的类别中的样本。

咱们要作的就是找到合适的算法来进行分类，在二元分类问题中咱们知道了经过回归来解决分类问题，利用直线将数据分红正类和负类。利用一对多的思想咱们一样能够将其应用在多分类问题上。下图为一个简单的有三种类别的分类问题。

咱们能够建立一个新的数据集将类别1当作正类，类别2和3设定为负类，拟合出一个逻辑回归分类器$h^(1)_\theta(x)$。一样的对类别2和类别3也能够拟合出其余逻辑回归分类器$h^(2)_\theta(x)$和$h^(3)_\theta(x)$。总的来讲就是$h^(i)_\theta(x) = P(y=i|x;\theta) \quad (i=1,2,3))$。即给定x和$\theta$时y=i的几率。当输入一个新的x时，咱们要作的就是在这三个分类器中输入x，而后选择h最大的类别，即选出三个分类器中可信度最高的一个

以上，为吴恩达机器学习logistic regression章节的内容。