Logistic回归计算过程的推导

时间 2019-11-06

原文原文链接

https://blog.csdn.net/ligang_csdn/article/details/53838743html

https://blog.csdn.net/weixin_30014549/article/details/52850870python

https://www.cnblogs.com/HolyShine/p/6403116.htmldom

2. 基本原理

Logistic Regression和Linear Regression的原理是类似的，按照我本身的理解，能够简单的描述为这样的过程：机器学习

（1）找一个合适的预测函数（Andrew Ng的公开课中称为hypothesis），通常表示为h函数，该函数就是咱们须要找的分类函数，它用来预测输入数据的判断结果。这个过程时很是关键的，须要对数据有必定的了解或分析，知道或者猜想预测函数的“大概”形式，好比是线性函数仍是非线性函数。函数

（2）构造一个Cost函数（损失函数），该函数表示预测的输出（h）与训练数据类别（y）之间的误差，能够是两者之间的差（h-y）或者是其余的形式。综合考虑全部训练数据的“损失”，将Cost求和或者求平均，记为J(θ)函数，表示全部训练数据预测值与实际类别的误差。tornado

（3）显然，J(θ)函数的值越小表示预测函数越准确（即h函数越准确），因此这一步须要作的是找到J(θ)函数的最小值。找函数的最小值有不一样的方法，Logistic Regression实现时有的是梯度降低法（Gradient Descent）。学习

3. 具体过程

3.1 构造预测函数

Logistic Regression虽然名字里带“回归”，可是它其实是一种分类方法，用于两分类问题（即输出只有两种）。根据第二章中的步骤，须要先找到一个预测函数（h），显然，该函数的输出必须是两个值（分别表明两个类别），因此利用了Logistic函数（或称为Sigmoid函数），函数形式为：.net

对应的函数图像是一个取值在0和1之间的S型曲线（图1）。3d

图1htm

接下来须要肯定数据划分的边界类型，对于图2和图3中的两种数据分布，显然图2须要一个线性的边界，而图3须要一个非线性的边界。接下来咱们只讨论线性边界的状况。

图2

图3

对于线性边界的状况，边界形式以下：

构造预测函数为：

hθ(x)函数的值有特殊的含义，它表示结果取1的几率，所以对于输入x分类结果为类别1和类别0的几率分别为：

3.2 构造Cost函数

Andrew Ng在课程中直接给出了Cost函数及J(θ)函数如式（5）和（6），可是并无给出具体的解释，只是说明了这个函数来衡量h函数预测的好坏是合理的。

实际上这里的Cost函数和J(θ)函数是基于最大似然估计推导获得的。下面详细说明推导的过程。（4）式综合起来能够写成：

取似然函数为：

对数似然函数为：

最大似然估计就是要求得使l(θ)取最大值时的θ，其实这里可使用梯度上升法求解，求得的θ就是要求的最佳参数。可是，在Andrew Ng的课程中将J(θ)取为（6）式，即：

由于乘了一个负的系数-1/m，因此J(θ)取最小值时的θ为要求的最佳参数。

3.3 梯度降低法求J(θ)的最小值

求J(θ)的最小值可使用梯度降低法，根据梯度降低法可得θ的更新过程：

式中为α学习步长，下面来求偏导：

上式求解过程当中用到以下的公式：

所以，（11）式的更新过程能够写成：

由于式中α原本为一常量，因此1/m通常将省略，因此最终的θ更新过程为：

另外，补充一下，3.2节中提到求得l(θ)取最大值时的θ也是同样的，用梯度上升法求（9）式的最大值，可得：

观察上式发现跟（14）是同样的，因此，采用梯度上升发和梯度降低法是彻底同样的，这也是《机器学习实战》中采用梯度上升法的缘由。

3.4 梯度降低过程向量化

关于θ更新过程的vectorization，Andrew Ng的课程中只是一带而过，没有具体的讲解。

《机器学习实战》连Cost函数及求梯度等都没有说明，因此更不可能说明vectorization了。可是，其中给出的实现代码确是实现了vectorization的，图4所示代码的32行中weights（也就是θ）的更新只用了一行代码，直接经过矩阵或者向量计算更新，没有用for循环，说明确实实现了vectorization，具体代码下一章分析。

文献[3]中也提到了vectorization，可是也是比较粗略，很简单的给出vectorization的结果为：

且不论该更新公式正确与否，这里的Σ(...)是一个求和的过程，显然须要一个for语句循环m次，因此根本没有彻底的实现vectorization，不像《机器学习实战》的代码中一条语句就能够完成θ的更新。

下面说明一下我理解《机器学习实战》中代码实现的vectorization过程。

约定训练数据的矩阵形式以下，x的每一行为一条训练样本，而每一列为不一样的特称取值：

约定待求的参数θ的矩阵形式为：

先求x.θ并记为A：

求hθ(x)-y并记为E：

g(A)的参数A为一列向量，因此实现g函数时要支持列向量做为参数，并返回列向量。由上式可知hθ(x)-y能够由g(A)-y一次计算求得。

再来看一下（15）式的θ更新过程，当j=0时：

一样的能够写出θj，

综合起来就是：

综上所述，vectorization后θ更新的步骤以下：

（1）求A=x.θ；

（2）求E=g(A)-y；

（3）求θ:=θ-α.x'.E,x'表示矩阵x的转置。

也能够综合起来写成：

前面已经提到过：1/m是能够省略的。

4. 代码分析

图4中是《机器学习实战》中给出的部分实现代码。

图4

sigmoid函数就是前文中的g(z)函数，参数inX能够是向量，由于程序中使用了Python的numpy。

gradAscent函数是梯度上升的实现函数，参数dataMatin和classLabels为训练数据，23和24行对训练数据作了处理，转换成numpy的矩阵类型，同时将横向量的classlabels转换成列向量labelMat，此时的dataMatrix和labelMat就是（18）式中的x和y。alpha为学习步长，maxCycles为迭代次数。weights为n维（等于x的列数）列向量，就是（19）式中的θ。

29行的for循环将更新θ的过程迭代maxCycles次，每循环一次更新一次。对比3.4节最后总结的向量化的θ更新步骤，30行至关于求了A=x.θ和g(A)，31行至关于求了E=g(A)-y，32行至关于求θ:=θ-α.x'.E。因此这三行代码实际上与向量化的θ更新步骤是彻底一致的。

总结一下，从上面代码分析能够看出，虽然只有十多行的代码，可是里面却隐含了太多的细节，若是没有相关基础确实是很是难以理解的。相信完整的阅读了本文，就应该没有问题了！^_^。

【参考文献】

[1]《机器学习实战》——【美】Peter Harington
[2] Stanford机器学习公开课（https://www.coursera.org/course/ml）
[3] http://blog.csdn.net/abcjennifer/article/details/7716281
[4] http://www.cnblogs.com/tornadomeet/p/3395593.html
[5] http://blog.csdn.net/moodytong/article/details/9731283
[6] http://blog.csdn.net/jackie_zhu/article/details/8895270