斯坦福公开课4:牛顿方法

 北京理工大学计算机专业2016级硕士在读,方向:Machine Learning,NLP,DM

本讲大纲:

1.牛顿方法(Newton’s method) 
2.指数族(Exponential family) 
3.广义线性模型(Generalized linear models)html


牛顿法

假设有函数:这里写图片描述,咱们但愿找到知足这里写图片描述这里写图片描述值. 这里这里写图片描述是实数. 
牛顿方法执行下面的更新: 具体原理可参考文章《Jacobian矩阵和Hessian矩阵》
这里写图片描述 
下图为执行牛顿方法的过程: 
这里写图片描述 
简单的来讲就是经过求当前点的导数获得下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.算法

这里写图片描述,咱们能够用一样的算法去最大化这里写图片描述 
这里写图片描述函数

 

牛顿方法的通常化: 
若是这里写图片描述是一个向量,那么: 
这里写图片描述 
其中,这里写图片描述这里写图片描述这里写图片描述的偏导数; 
H称为海森矩阵(Hessian matrix),是一个n*n的矩阵,n是特征量的个数,而且这里写图片描述学习

牛顿方法的收敛速度比批处理梯度降低快不少,不多次的迭代就可以很是接近最小值了;可是当n很大时,每次迭代求海森矩阵和逆代价是很大的。spa


 

 

指数族

对P(y| x;θ)建模:

 

 

  1. y∈R:高斯分布---> 最小二乘法
  2. y∈{0,1}:伯努利分布---> Logistic回归 
 
     Binomial(  φ ) = P( y=1 |  φ  ) =  φ  一类伯努利分布
     N(   μ,σ 2  )  一类高斯分布
     以上分布都是指数分布族的特例
指数族形式: 
这里写图片描述
η 被称为分布的 天然参数 (natural parameter)
T(y)是 充分统计量 (sufficient statistic)(对于咱们考虑的分布来讲,一般T(y)=y);
a(η)是日志分配函数(log partition function),e -a(η) 是一个规范化常数,使得分布的和为1. 
给定函数T,a,b,经过改变参数η获得不一样的分布。
 
下面展现伯努利(Bernoulli)高斯分布(Gaussian distribution)都是指数分布族的特例:
  • 伯努利分布能够写成: 
这里写图片描述 
所以,令这里写图片描述(有趣地发现其反函数为这里写图片描述这里写图片描述),而且, 
这里写图片描述 
  • 高斯分布: 
回忆咱们对线性回归求导时,方差对咱们最终结果并无任何影响.为了使问题简化,令这里写图片描述因而有, 
这里写图片描述 
得: 
这里写图片描述
指数分布族还包括不少其余的分布: 
多项式分布(multinomial)  : 对k个结果的事件建模
泊松分布(poisson):用于计数过程建模 
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模 
β分布Dirichlet分布:对小数建模
Wishart分布:协方差矩阵的分布
 
 

广义线性模型 (GLM)

为了导出GLM,做三个假设: 
(1) 这里写图片描述  
(2)给定x,咱们的目标是预测T(y)的预期值. 在大部分例子中,咱们有T(y)=y,所以意味着咱们经过学习获得的假设知足 这里写图片描述 (这个假设对logistic回归和线性回归都成立) 
(3)天然参数和输入变量是线性相关的,也就是说 这里写图片描述 (天然参数大可能是实数,若是天然参数是向量,则 这里写图片描述
3.1普通的最小二乘法  
为了说明普通的最小二乘法是GLM的特例,设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的,而且假设服从高斯分布 这里写图片描述 ,高斯分布写成指数族的形式,有 这里写图片描述 获得: 
这里写图片描述
3.2 logistic回归  
考虑logistic,咱们感兴趣的是二元分类,也就是说 这里写图片描述 很容易想到指数分布族的伯努利分布,有 这里写图片描述 ,同理获得: 
这里写图片描述
正则响应函数(canonical response function): 这里写图片描述  
正则链接函数(canonical link function): 这里写图片描述
 

3.3 softmax 回归 日志

当分类问题的y取值不止两个时,咱们须要采用 多项式分布(multinomial distribution) .
在推导多项式分布的GLM以前,先把多项式分布表达成指数族.为了参数化多项式分布的k各可能结果,有人可能会用k个参数来讲明每一种状况的可能性,可是这些参数是冗余的,而且并非独立的(因为知道任何其中的k-1个,剩下的一个就能够求出,由于知足
这里写图片描述 ). 所以咱们用k-1个参数 这里写图片描述 对多项分布进行参数化,
这里写图片描述
这里T(y) <> y。
 
定义 这里写图片描述 ,以下, 
这里写图片描述
介绍一个颇有用的记号(指示函数), 这里写图片描述 ,例如1{2=3}=0,1{3=5-2}=1. 
所以T(y)和y的关系为 这里写图片描述

而且有这里写图片描述,所以: 
这里写图片描述orm

连接函数为,这里写图片描述,为了方便,定义这里写图片描述.htm

可得: 
这里写图片描述 
所以这里写图片描述,反代回去获得响应函数: 
这里写图片描述blog

从η到这里写图片描述的映射叫作softmax函数.事件

根据假设3,这里写图片描述获得: 
这里写图片描述

这个应用于分类问题(当这里写图片描述),叫作softmax回归(softmax regression).是logistic回归的推广.

这里写图片描述

与最小二乘法和logistic回归相似, 
这里写图片描述

再经过梯度上升或者牛顿方法求出θ.


补充: 几率分布函数、几率密度函数、几率质量函数

  • 几率分布函数. Accumulative Distribution Function. ADF(X能够是连续的, 也能够是离散的随机变量.

 

  • 几率密度函数. Probability Density Function. PDF.(为连续随机变量定义的)

 

它自己不是一个几率值,能够大于1,在x积分后才是几率值。

 

  • 几率质量函数. Probability Mass Function. PMF. (为离散型随机变量定义的)

 

Tips:
一、它自己就是一个几率值. 对于连续型随机变量, 它任意一个肯定x 值的几率值都是0, 即:
二、而对离散型随机变量, 它在任意一个x值 的几率值就是它的PMF.

 

补充:统计中的分布

1. 伯努利分布(两点分布、0-1 分布
  • 描述的是一种随机试验(结果只有成功或失败,可能性是固定的p)发生的几率,属于离散型几率分布
  • 若是试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验
  • 进行一次伯努利试验,成功(X=1)几率为p(0<=p<=1),失败(X=0)几率为1-p,则称随机变量X服从伯努利分布。
  • 伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:
  • 几率质量函数     其中 k=0,1
  • 指望:
  • 方差:operatorname{var}X = sum_{i=0}^1(x_i-E[X])^2f_X(x)= (0-p)^2(1-p) + (1-p)^2p = p(1-p) = pq
2. 二项分布(n 重伯努利分布)
  • 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散型几率分布
  • 若是试验E是一个n重伯努利试验,每次伯努利试验的成功几率为p,X表明成功的次数,则X的几率分布是二项分布,记为X~B(n,p),其几率质量函数

 

 

 

  • 二项分布名称的由来,是因为其几率质量函数中使用了二项系数,该系数是二项式定理中的系数,二项式定理由牛顿提出:

 

  • 二项分布的典型例子是扔硬币,硬币正面朝上几率为p, 重复扔n次硬币,k次为正面的几率即为一个二项分布几率。

 

 

3.高斯分布(正态分布)

 

  • 若随机变量X服从一个数学指望μ、标准方差σ2的高斯分布,记为:

 

X∼N(μ,σ2),

 

  • 其几率密度函数

 

f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}}
 
4.多项分布

  • 多项式分布(Multinomial Distribution)是二项式分布的推广。二项式作n次伯努利实验,规定了每次试验的结果只有两个,若是如今仍是作n次试验,只不过每次试验的结果能够有多m个,且m个结果发生的几率互斥且和为1,则发生其中一个结果X次的几率就是多项式分布。
  • 扔骰子是典型的多项式分布。扔骰子,不一样于扔硬币,骰子有6个面对应6个不一样的点数,这样单次每一个点数朝上的几率都是1/6(对应p1~p6,它们的值不必定都是1/6,只要和为1且互斥便可,好比一个形状不规则的骰子),重复扔n次,若是问有k次都是点数6朝上的几率就是
  • 多项式分布通常的几率质量函数为:

相关文章
相关标签/搜索