【机器学习】Logistic Regression 学习笔记

时间 2019-12-11

标签机器学习 logistic regression 学习笔记栏目应用数学繁體版

原文原文链接

逻辑回归模型

虽然逻辑回归姓回归，不过其实它的真实身份是二分类器。介绍完了姓，咱们来介绍一下它的名字，逻辑斯蒂。这个名字来源于逻辑斯蒂分布：git

逻辑斯蒂分布

设X是连续随机变量，X服从逻辑斯蒂分布是指X具备下列的分布函数和密度函数：算法

机器学习

有没有发现函数

有没有发现右边很熟悉？没错，就是sigmoid 曲线，这个曲线是以点( 学习

sigmoid曲线有几个特性：优化

1.x趋向正无穷时F(x)趋近于1atom

2.x趋向负无穷时F(x)趋近于0spa

3.x在0处为0.5blog

它的这些特性，决定它很是适合用于看成基于几率的二项分类函数。相似的还有正态分布的分布函数，和它很是相似，若是选用正态分布，则是贝叶斯逻辑回归（Bayesian logistic regression）。事件

　　逻辑斯谛回归的采用的是最大似然估计的思想。对于给定的训练数据集T = {(x1, y1),(x2, y2),......(xn, yn)}，咱们找到它的似然函数(即它发生的几率)，若是能使似然函数取得最大值，那么就是让这个样本发生的几率最大（这个几率是个联合几率）。

咱们看一下逻辑回归的似然函数。

L(w)取得极大值，则须要yi为1时，P(Y = 1 | x)尽可能的大，yi为0时，P(Y = 1 | x)尽可能的小。

咱们的几率函数P(Y = 1 | x)为

P (Y = 1 | x) 为sigmod函数(等价形式)，为了使yi为1时，P(Y = 1 | x)尽可能的大，yi为0时，P(Y = 1 | x)尽可能的小。咱们须要调整w⋅x，使得yi 为1时，w⋅x尽可能取比较大的值，位于原点右侧较远的地方，yi为0时，w⋅x尽可能位于原点左侧较远的地方，即它发生的几率尽可能小。换句话说，咱们调整w⋅x使得yi为1尽可能发生，为0尽可能不要发生。这个时候似然函数取得最大值

借用andrew ng老师的图

咱们要找到w⋅x = 0 这条曲线，使得样本x尽可能被分红两部分，一类发生的几率尽可能大，另外一类几率尽可能小。样本点与w⋅x = 0 的距离，即偏差，服从逻辑斯谛分布。

二项逻辑回归模型

一个事件的概率（odds）：指该事件发生与不发生的几率比值，若事件发生几率为

o d d s = p 1 - p

l o g i t (p) = l o g p 1 - p

l o g P ( Y = 1 | x ) 1 - P ( Y = 1 | x ) = w \cdot x

也就是说，输出

模型的数学形式肯定后，剩下就是如何去求解模型中的参数。在统计学中，经常使用极大似然估计法来求解，即找到一组参数，使得在这组参数下，咱们的数据的似然度（几率）最大。

设：

P (Y = 1 | x) = π (x), P (Y = 0 | x) = 1 - π (x)

似然函数：

L (w) = \prod [π (x i)] y i [1 - π (x i)] 1 - y i

对数似然函数:

l n L (w) = \sum [y i l n π (x i) + (1 - y i) l n (1 - π (x i))]

= \sum [y i l n π ( x i ) 1 - π ( x i ) + l n ( 1 - π ( x i ) ) ]

= \sum [y i (w \cdot x i) - l n (1 + e w \cdot x i)]

如今要求

在机器学习领域，咱们更常常遇到的是损失函数的概念，其衡量的是模型预测错误的程度。经常使用的损失函数有0-1损失，log损失，hinge损失等。一般是最小化损失函数，这里为啥求极大似然估计？

实际上，对数似然损失在单个数据点上的定义为：

- y l n p (y | x) - (1 - y) l n [1 - p (y | x)] = - [y i l n π (x i) +

若是取整个数据集上的平均对数似然损失，咱们刚好能够获得:

J (w) = - 1 N l n L ( w )

即在逻辑回归模型中，咱们最大化似然函数和最小化对数似然损失函数其实是等价的。

接下来就是对

[先跑个题]，讲到求极值的方法，忽然想到有几个可视化的gif图，可以很直观地体现各类算法的优劣，好东西固然要分享了。

Imgur 网友经过可视化方法，对比了SGD, momentum, Nesterov, AdaGrad, AdaDelta,
RMSProp等优化算法在Long Valley, Beale’s Function及Saddle Point状况下的性质。

Long Valley:

Beale’s Function:

Saddle Point:

之后会专门写一篇来说求极值的方法，这是题外话了，咱们仍是继续回归逻辑吧，哈哈。
下面介绍使用梯度降低法来求解逻辑回归问题。

使用梯度降低法(Gradient Descent)求解逻辑回归

算法（梯度降低法求解逻辑回归）
输入：目标函数：

J (w k) = - 1 N l n L ( w k ) \Rightarrow - l n L ( w k )

= \sum [y i (w k \cdot x i) - l n (1 + e w k \cdot x i)]

(3) 计算梯度

g (w k) = \sum [x i \cdot y i - x i \cdot e w k \cdot x i 1 + e w k \cdot

= \sum [x i \cdot y i - π (x i)]

若

w * = w k

不然，令

J (w k + λ k p k) = m i n (J (w k + λ p k))

(4) 令

w * = w k + 1

(5) 不然，令

逻辑回归的正则化

当模型的参数过多时，很容易遇到过拟合的问题。而正则化是结构风险最小化的一种实现方式，经过在经验风险上加一个正则化项，来惩罚过大的参数来防止过拟合。

正则化是符合奥卡姆剃刀(Occam’s razor)原理的：在全部可能选择的模型中，可以很好地解释已知数据而且十分简单的才是最好的模型。

咱们来看一下underfitting，fitting跟overfitting的状况：

显然，最右这张图overfitting了，缘由多是能影响结果的参数太多了。典型的作法在优化目标中加入正则项，经过惩罚过大的参数来防止过拟合：

J (w) => J (w) + λ | | w | | p

p=1或者2，表示

：是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。那么，参数稀疏 有什么好处呢？

：它有两个美称，在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫它“权值衰减”(weight decay)。

接下来咱们思考一下为何L1范式会产生稀疏性。

假设代价函数 L 与某个参数 x 的关系如图所示：

则最优的 x 在绿点处，x 非零。

如今施加 L2 regularization，新的代价函数（）如图中蓝线所示：

施加L2范式的实质是在原来函数曲线上上移一个抛物线的位移，虽然抛物线在0处取得最小值，可是抛物线在0处过于平缓。最优的 x 在黄点处，x 的绝对值减少了，但依然非零。

而若是施加 L1 regularization，则新的代价函数（）如图中粉线所示：

施加L1范式的实质是在原来函数曲线上上移一个V形折线的位移，折线在0处取得最小值，只要系数C足够大，就可以使得代价函数在0处取得最小值。最优的 x 就变成了 0。这里利用的就是绝对值函数(L1)的尖峰。两种 regularization 能不能把最优的 x 变成 0，取决于原先的费用函数在 0 点处的导数。若是原本导数不为 0，那么施加 L2 regularization 后导数依然不为 0，最优的 x 也不会变成 0。而施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。上面只分析了一个参数 x。事实上 L1 regularization 会使得许多参数的最优值变成 0，这样模型就稀疏了。