机器学习进阶 - 深刻思考逻辑回归

问题背景

假设有这样的一个需求：判断某一朵花是否是鸢尾花。咱们知道不一样品种的花，其长得是不同，因此咱们能够经过花的若干外观特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度等）来表示这一朵花。基于这个思路，咱们采集N朵花并对其标注，获得如下的数据集。 markdown

考虑最简单的一种情形，Y(是否为鸢尾花)，与特征X线性相关，W定义为相关系数，即模型F能够用下面公式表述：框架

化简写成向量化形式：，也就是线性回归，机器学习

如今问题来了，是和否是两种状态，在计算机科学上咱们经常使用1/0开关量来表述，可是从表示式的值域上看数学公式: 能取任意值，这是没办法直接成表述0/1开关量。那如何解决这个问题呢？经过一个转换函数(又称为激活函数)，将线性回归转换逻辑回归。函数

建模思路

并非任意函数均可以做激活函数使用的，激活函数具备如下几种良好的性质：
非线性，线性函数的复合线性函数还是线性函数，故线性激活函数不能带来非线性的变换，使用这样激活函数不能加强模型的表达能力，如此一来就没办法拟合复杂的实现问题了，因此激活函数必须非线性的。
连续可微，若是函数不可微分，就没办法经过梯度降低法来迭代优化，以获得近似的最优解了。若是激活函数不可微，可能须要其余各复杂的数学工具来求解，一是未必会有解，二是计算成本过高，难以实现和落地。
单调性，线性函数自己是单调，这个自己是必定的物理意义的，因此通过激活函数转换后也保持这个性质，不能改变其单调性。知足工具

直接转换

经过一个分段函数，把f(x)直接映射成0或1，如公式所示：

可是，这个分段函数不连续不可微不单调，还带一个额外的参数k，因此这种分段函数并不适合做激活函数使用。学习

间接映射

不直接映射成0或1，而是将f(x)的值域压缩到(0,1)之间，如公式所示：

这就是sigmoid函数了，下图为sigmoid函数的图像。

显然是这个函数是具备上面提到的激活函数的三种优良性质。同时将输出压缩到(0,1)区间上，有一个很直观感觉是，咱们能够把这个输出值理解为一种几率，在这个问题上指的是鸢尾花的几率，当这个几率值大于0.5，说明鸢尾花几率大即1，反之则不是鸢尾花即0，这就能实现分类的判别了。优化

实现逻辑

那既然如今有了sigmoid激活函数，咱们该如何利用它训练模型呢？模型之因此能训练是依赖于两个神器:损失函数和梯度降低，前者能量化咱们模型预测与真实结果的偏差、肯定优化的目标函数，后者能知道如何去减小偏差、具体地优化目标函数。spa

损失函数

sigmoid激活函数输出值能够看做是几率，具体地咱们能够把这个几率，当作是预测结果为是的几率。

咱们须要预测的分类结果要么为是要么为否，只有两种状况，显然样本X是服从伯努利(0-1)分布。假定样本X，当分类标签真值y为1时，咱们就看y_pred也是sigmoid的输出值（模型预测为是的几率），0是1的互斥事件，当分类标签真值为0时，咱们就看1-y_pred（模型预测为否的几率），因此条件几率P(Y|X)能够量化出模型预测的准确程度了。

合并化简，整合成统一形式

P(Y|X)就是模型预测结果，显然P(Y|X)的值越接近于1，说明模型预测结果越准。一个数据集有N个样本，每一个样本之间独立的，因此在模型在整个数据上好坏，能够这样定义：

显然，要使得模型的效果最佳，则得找到一个最佳参数使得能取到最大值，这个就是最优化方法里面的极大使然估计(MLE)了，咱们找到损失函数了。

接下来，咱们得看看如何转换这个损失函数：加负号（最大值问题转化最小值问题，梯度降低能找最小值），取对数（不改单调性，把复杂的连乘变成简单的连加）
3d

梯度降低

肯定了目标函数以后，接下来就能够利用梯度降低，用迭代更新参数W，使其不断逼近目标函数的极值点。

梯度推导：

联立式②③可见

因而可知，t+1时刻模型预测偏差总会比在t时刻更小，经过这样迭代，模型就能不断学习和调整，一直到偏导数为0的(局部)最优极值点，这时候参数便没法再继续调整了，模型也就中止再训练了。code

结语

逻辑回归(Logistic Regression)是机器学习上面一个最简单、最基础的模型框架和基本范式，不夸张地说它是机器学习奠定石之一，后续的机器学习模型，不少都是立足于这个基础的模型框架上，提出各类形式拓展与改进。深入地理解逻辑回归模型，梳理逻辑回归模型背后建模思路、因果原因、实现逻辑，能让咱们对机器学习的方法论有一个更全面更清晰的认知。