机器学习-Logistic function(Sigmoid function)

下面给出H函数 
git

由这个函数生成的曲线称为Sigmoid曲线
算法

先不从数学上说为何这个模型中二元分类上比线性模型好,单纯从图形上看就能够获得直观的结论 
首先Y值域在[0,1],其次图形中中间陡峭而两边平缓,符合二元分类的样本点特性
函数

肯定了模型,下面要作的是fit最优的θ,仍然是采用最大似然法,即找出对训练数据可能性最大的那个θpost

前面对于线性回归问题,符合高斯分布(连续回归问题每每符合高斯分布),最终咱们由最大似然推导出最小二乘回归 
可是对于二元分类,符合伯努利分布(the Bernoulli distribution, 又称两点分布,0-1分布),由于二元分类的输出必定是0或1,典型的伯努利实验 
by the way,二项分布是n次独立的伯努利实验造成的几率分布,当n=1时,就是伯努利分布 
一样,若是离散输出是多个值,就是符合多项分布 
学习

看看由最大似然能够推导出什么 
首先给出伯努利分布 
spa

是否好理解,给定x;θ,y=1的几率等于h的值,看看图中,固然是h的值越大越可能为1,越小越可能为0 
那么这个式子能够合并写成,比较tricky的写法,Y为0或1,总有一项为1 
那么θ的似然函数定义为,θ的可能性取决于模型对训练集拟合的好坏 
3d

一样为了数学计算方便,定义log likelihood, 
blog

很显然,对于伯努利分布,这里没法推导出最小二乘
下面要作的是找到θ使得ℓ(θ)最大,因为这里是找最大值而非最小值,因此使用梯度上升(gradient ascent),道理是同样的 
首先计算梯度,计算过程参考原文 
数学

因此最终随机梯度上升rule写成, 
这个梯度公式,奇迹般的和线性回归中的梯度公式表面上看是同样的,能够仔细比较同样的 
之因此说表面上,是由于其中的是不一样的,这里是logitics函数。
it

Perceptron Learning Algorithm(感知机算法)

这里谈感知机,好像有些离题,可是你看下感知机的函数 

单纯从直观图形的角度,彷佛是逻辑函数的简化形式 
逻辑函数是连续的在[0,1]区间上,而感知机直接非0则1,参考下图红线 

一样使用梯度降低的感知机算法也是和上面相同的形式 

一样不一样的仅仅是h(x)  1960s,感知机被看做是大脑工做中独立神经元的粗糙的模型,因为简单,会用做后面介绍的学习算法的起点  虽然直观看上去感知机和以前看到的logistic回归或最小二乘回归很像,可是实际上是很是不同的算法  由于,对于感知机,很难赋予一种有意义的几率解释(probabilistic interpretations),或使用最大似然估计算法来推导感知机算法  而对于最小二乘或logistic均可以给出像高斯分布或伯努利分布的几率解释,并能够使用最大似然进行推导

相关文章
相关标签/搜索