机器学习进阶 - 深刻思考逻辑回归

问题背景

假设有这样的一个需求:判断某一朵花是否是鸢尾花。咱们知道不一样品种的花,其长得是不同,因此咱们能够经过花的若干外观特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度等)来表示这一朵花。 基于这个思路,咱们采集N朵花并对其标注,获得如下的数据集。 图片markdown

考虑最简单的一种情形,Y(是否为鸢尾花),与特征X线性相关,W定义为相关系数,即模型F能够用下面公式表述:框架

图片

化简写成向量化形式:图片,也就是线性回归,图片机器学习

如今问题来了,是和否是两种状态,在计算机科学上咱们经常使用1/0开关量来表述,可是从表示式的值域上看数学公式: 图片 能取任意值,这是没办法直接成表述0/1开关量。那如何解决这个问题呢?经过一个转换函数(又称为激活函数),将线性回归转换逻辑回归。 图片函数

建模思路

并非任意函数均可以做激活函数使用的,激活函数具备如下几种良好的性质:
非线性,线性函数的复合线性函数还是线性函数,故线性激活函数不能带来非线性的变换,使用这样激活函数不能加强模型的表达能力,如此一来就没办法拟合复杂的实现问题了,因此激活函数必须非线性的。
连续可微,若是函数不可微分,就没办法经过梯度降低法来迭代优化,以获得近似的最优解了。若是激活函数不可微,可能须要其余各复杂的数学工具来求解,一是未必会有解,二是计算成本过高,难以实现和落地。
单调性,线性函数自己是单调,这个自己是必定的物理意义的,因此通过激活函数转换后也保持这个性质,不能改变其单调性。 知足图片工具

直接转换

经过一个分段函数,把f(x)直接映射成0或1,如公式所示:
图片
可是,这个分段函数不连续不可微不单调,还带一个额外的参数k,因此这种分段函数并不适合做激活函数使用。学习

间接映射

不直接映射成0或1,而是将f(x)的值域压缩到(0,1)之间,如公式所示:
图片
这就是sigmoid函数了,下图为sigmoid函数的图像。
图片
显然是这个函数是具备上面提到的激活函数的三种优良性质。同时将输出压缩到(0,1)区间上,有一个很直观感觉是,咱们能够把这个输出值理解为一种几率,在这个问题上指的是鸢尾花的几率,当这个几率值大于0.5,说明鸢尾花几率大即1,反之则不是鸢尾花即0,这就能实现分类的判别了。优化

实现逻辑

那既然如今有了sigmoid激活函数,咱们该如何利用它训练模型呢?模型之因此能训练是依赖于两个神器:损失函数和梯度降低,前者能量化咱们模型预测与真实结果的偏差、肯定优化的目标函数,后者能知道如何去减小偏差、具体地优化目标函数。spa

损失函数

sigmoid激活函数输出值能够看做是几率,具体地咱们能够把这个几率,当作是预测结果为是的几率。
图片
咱们须要预测的分类结果要么为是要么为否,只有两种状况,显然样本X是服从伯努利(0-1)分布。假定样本X,当分类标签真值y为1时,咱们就看y_pred也是sigmoid的输出值(模型预测为是的几率),0是1的互斥事件,当分类标签真值为0时,咱们就看1-y_pred(模型预测为否的几率),因此条件几率P(Y|X)能够量化出模型预测的准确程度了。
图片
合并化简,整合成统一形式
图片
P(Y|X)就是模型预测结果,显然P(Y|X)的值越接近于1,说明模型预测结果越准。一个数据集有N个样本,每一个样本之间独立的,因此在模型在整个数据上好坏,能够这样定义:
图片
显然,要使得模型的效果最佳,则得找到一个最佳参数图片使得图片能取到最大值,这个就是最优化方法里面的极大使然估计(MLE)了,咱们找到损失函数了。
图片
接下来,咱们得看看如何转换这个损失函数:加负号(最大值问题转化最小值问题,梯度降低能找最小值),取对数(不改单调性,把复杂的连乘变成简单的连加)
图片3d

梯度降低

肯定了目标函数以后,接下来就能够利用梯度降低,用迭代更新参数W,使其不断逼近目标函数的极值点。
图片
梯度推导:
图片
联立式②③可见
图片
因而可知,t+1时刻模型预测偏差总会比在t时刻更小,经过这样迭代,模型就能不断学习和调整,一直到偏导数为0的(局部)最优极值点,这时候参数便没法再继续调整了,模型也就中止再训练了。code

结语

逻辑回归(Logistic Regression)是机器学习上面一个最简单、最基础的模型框架和基本范式,不夸张地说它是机器学习奠定石之一,后续的机器学习模型,不少都是立足于这个基础的模型框架上,提出各类形式拓展与改进。 深入地理解逻辑回归模型,梳理逻辑回归模型背后建模思路、因果原因、实现逻辑,能让咱们对机器学习的方法论有一个更全面更清晰的认知。