北京理工大学计算机专业2016级硕士在读,方向:Machine Learning,NLP,DM
本讲大纲:
1.牛顿方法(Newton’s method)
2.指数族(Exponential family)
3.广义线性模型(Generalized linear models)html
牛顿法
以上分布都是指数分布族的特例
指数族形式:
η
被称为分布的
天然参数
(natural parameter)
;
T(y)是
充分统计量
(sufficient statistic)(对于咱们考虑的分布来讲,一般T(y)=y);
a(η)是日志分配函数(log partition function),e
-a(η)
是一个规范化常数,使得分布的和为1.
给定函数T,a,b,经过改变参数η获得不一样的分布。
下面展现伯努利(Bernoulli)和高斯分布(Gaussian distribution)都是指数分布族的特例:
回忆咱们对线性回归求导时,方差对咱们最终结果并无任何影响.为了使问题简化,令
因而有,
得:

指数分布族还包括不少其余的分布:
多项式分布(multinomial) : 对k个结果的事件建模
泊松分布(poisson):用于计数过程建模
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模
β分布,Dirichlet分布:对小数建模
Wishart分布:协方差矩阵的分布
广义线性模型 (GLM)
为了导出GLM,做三个假设:
(1)
(2)给定x,咱们的目标是预测T(y)的预期值. 在大部分例子中,咱们有T(y)=y,所以意味着咱们经过学习获得的假设知足
(这个假设对logistic回归和线性回归都成立)
(3)天然参数和输入变量是线性相关的,也就是说
(天然参数大可能是实数,若是天然参数是向量,则
)
3.1普通的最小二乘法
为了说明普通的最小二乘法是GLM的特例,设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的,而且假设服从高斯分布
,高斯分布写成指数族的形式,有
获得:
3.2 logistic回归
考虑logistic,咱们感兴趣的是二元分类,也就是说
很容易想到指数分布族的伯努利分布,有
,同理获得:
正则响应函数(canonical response function):
正则链接函数(canonical link function):
3.3 softmax 回归 日志
当分类问题的y取值不止两个时,咱们须要采用
多项式分布(multinomial distribution)
.
在推导多项式分布的GLM以前,先把多项式分布表达成指数族.为了参数化多项式分布的k各可能结果,有人可能会用k个参数来讲明每一种状况的可能性,可是这些参数是冗余的,而且并非独立的(因为知道任何其中的k-1个,剩下的一个就能够求出,由于知足
). 所以咱们用k-1个参数
对多项分布进行参数化,
.
这里T(y) <> y。
定义
,以下,
介绍一个颇有用的记号(指示函数),
,例如1{2=3}=0,1{3=5-2}=1.
所以T(y)和y的关系为
.
补充: 几率分布函数、几率密度函数、几率质量函数
- 几率分布函数. Accumulative Distribution Function. ADF(X能够是连续的, 也能够是离散的随机变量.)
- 几率密度函数. Probability Density Function. PDF.(为连续随机变量定义的)
它自己不是一个几率值,能够大于1,在x积分后才是几率值。
- 几率质量函数. Probability Mass Function. PMF. (为离散型随机变量定义的)
Tips:
一、它自己就是一个几率值.
对于连续型随机变量, 它任意一个肯定x
值的几率值都是0, 即:
二、而对离散型随机变量, 它在任意一个x值
的几率值就是它的PMF.
补充:统计中的分布
1. 伯努利分布(两点分布、0-1 分布)
- 描述的是一种随机试验(结果只有成功或失败,可能性是固定的p)发生的几率,属于离散型几率分布
- 若是试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。
- 进行一次伯努利试验,成功(X=1)几率为p(0<=p<=1),失败(X=0)几率为1-p,则称随机变量X服从伯努利分布。
- 伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:


- 几率质量函数:
其中 k=0,1
- 方差:
![operatorname{var}X = sum_{i=0}^1(x_i-E[X])^2f_X(x)= (0-p)^2(1-p) + (1-p)^2p = p(1-p) = pq](http://static.javashuo.com/static/loading.gif)
2. 二项分布(n 重伯努利分布)
- 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散型几率分布。
- 若是试验E是一个n重伯努利试验,每次伯努利试验的成功几率为p,X表明成功的次数,则X的几率分布是二项分布,记为X~B(n,p),其几率质量函数为

- 二项分布名称的由来,是因为其几率质量函数中使用了二项系数
,该系数是二项式定理中的系数,二项式定理由牛顿提出:


- 二项分布的典型例子是扔硬币,硬币正面朝上几率为p, 重复扔n次硬币,k次为正面的几率即为一个二项分布几率。
3.高斯分布(正态分布)
- 若随机变量X服从一个数学指望为μ、标准方差为σ2的高斯分布,记为:
-
X∼N(μ,σ2),
-
-
4.多项分布
- 多项式分布(Multinomial Distribution)是二项式分布的推广。二项式作n次伯努利实验,规定了每次试验的结果只有两个,若是如今仍是作n次试验,只不过每次试验的结果能够有多m个,且m个结果发生的几率互斥且和为1,则发生其中一个结果X次的几率就是多项式分布。
- 扔骰子是典型的多项式分布。扔骰子,不一样于扔硬币,骰子有6个面对应6个不一样的点数,这样单次每一个点数朝上的几率都是1/6(对应p1~p6,它们的值不必定都是1/6,只要和为1且互斥便可,好比一个形状不规则的骰子),重复扔n次,若是问有k次都是点数6朝上的几率就是
-
