目录dom
1、 随机向量及其分布机器学习
1.多元向量的联合分布ide
1.1离散状况函数
1.2连续状况学习
2.多元向量的边缘分布人工智能
2.1离散状况spa
2.2连续状况orm
3.多元向量的条件分布htm
4.贝叶斯规则blog
9.3 KL散度(Kullback-Leibler divergenc,KL divergence)
9.5最大信息系数(maximal information coefficient,MIC)
1.多元正态分布(multivariate normal, MVN)
3.1朴素贝叶斯分类器(Naive Bayes Classifier, NBC)
多元随机向量的分布:在多个随机变量组成的向量上定义的分布。
假设D维随机向量(X1, …, XD),其中Xj为离散型随机变量,则定义联合几率质量函数(pmf)为:
联合几率分布函数(CDF)为:
假设D维随机向量(X1, …, XD),其中Xj为连续型随机变量,则定义联合几率密度函数(pdf)为:
其中:
联合几率分布函数(CDF)为:
对任意集合:
假设D维离散型随机向量(X1, …, XD)有联合质量函数p(X1, …, XD),则定义Xj的边缘几率质量函数:
假设D维连续型随机向量(X1, …, XD)有联合质量函数p(X1, …, XD),则定义Xj的边缘几率质量函数:
(1) 例如,对二维随机变量(X,Y), 当p(y) > 0时,给定Y=y时X的条件分布为:
即:
(2) 链规则(Chain Rule)
例若有3个随机变量时:
或者:
通常地,
若是Y能够取值y1, …, yK,x为X的一个取值,则:
(2) 贝叶斯规则:
若对向量中X,Y中全部的x, y,有:
或者:
则称X与Y独立,记做:X⊥Y
若对向量中X,Y,Z中全部的x, y, z,有:
或者
则称X与Y条件独立(即有条件的独立),记做:X⊥Y | Z
若是随机变量之间不独立,可用协方差/相关系数来刻画两个随机变量之间关系强弱:
性质:
(1)
协方差知足:
相关系数知足:
(2) 若是X,Y独立,则:
(3) 协方差:
对任意两个随机变量X和Y,有:
推广到多个随机变量:
令随机向量X的形式为:X = (X1, …, XD)T,则方差-协方差矩阵定义为:
当各个成分变量独立时,协方差矩阵是一个对角矩阵。
(1)选择最简单的、能表示数据产生规律的模型
(2)模型选择:最小描述长度准则
(3)特征选择:选择与目标最相关的特征
(1)熵是一种不肯定度的度量
(2)定义:
假设随机变量X的分布为p,则该随机变量的熵定义为:
KL散度,又称相对熵(relative entropy):一种度量两个分布p和q之间的差别的方法:
或者:
其中H(p, q)称为交叉熵:
互信息:度量联合分布p(X, Y)和因式分解形式p(X)P( Y)之间的类似度:
或者:
其中H(X|Y)或H(Y|X)称为条件熵(表示观测到X后Y的不肯定性减小):
性质:
(1)互信息不小于0:
(2)当且仅当p(X, Y)= p(X)P( Y),即X 与Y独立时,互信息为0.
(3)在特征选择时,能够经过计算特征与目标之间的互信息,选择与目标互信息最大的那些特征,抛弃与目标关系不大的特征。
(1)连续变量的互信息,需先离散化,再计算互信息。
(2)最大信息系数(MIC):以最优的方式离散化,并将互信息取值转换成到[0,1]:
其中I(X(G);Y(G))为某种离散方式, 箱子大小B建议为N0.6,N为样本数目。
多元正太分布的通常形式 :
其中,
指望:μ=E(x) , 协方差矩阵:Ʃ = E( (x-μ)T(x-μ) ),便可以写成方差-协方差矩阵的形式。
协方差矩阵有D x (D-1)/2个独立元素,是正定矩阵,
协方差矩阵的逆 = 精度
协方差矩阵的特征值分解:
则Mahalanobis 距离(等于在翻转坐标系中的欧氏距离):
其中,yi = uiT (x -μ)
假设x随机向量服从多元正态分布:
则令y的分布为:
称y已经被白化了,即已经服从了标准正态分布:N(0,I)
在产生式分类器中:
使用高斯分布做为类条件分布:
经过分析这个高斯分布来肯定最佳的分布的方法,叫高斯判别分析(GDA)。
例如,当协方差矩阵为对角阵时,为朴素贝叶斯分类器(各特征独立)。
(1) 当全部都相等时,判别边界为线性,称为线性判别分析(Linear Discriminant Analysis, LDA)
(2) 通常状况下,判别边界为二次曲线
(3) 协方差决定了模型的复杂度(参数的数目)
利用随机变量之间的条件独立关系,能够将随机向量的联合分布分解为一些因式的乘积,获得简洁的几率表示。
有向图模型(directed graphical models,DGMs)使用带有有向边的图,用条件几率分布来表示分解:每一个随机变量xi都包含着一个影响因子,这些影响因子被称为xi的父节点,记为Pa (xi),则有向图模型表示几率分解:
无向图模型(undirected graphical model,UGM):使用带有无向边的图,将联合几率分解成一组函数的乘积。
图中任何知足两两之间有边链接的顶点的集合被称为团(clip),每一个团Ci都伴随着一个因子: ɸi(Ci), 而且这些团必须知足:
(1)每一个因子的输出都必须是非负的
(2)但不像几率分布中那样要求因子的和/积分为1
则随机向量的联合几率能够分解为:全部这些因子的乘积:
其中归一化常数Z被定义为函数乘积的全部状态的求和或积分,使得这些乘积的求和为1(即便得p(x)为一个合法的几率分布)。
(1)原理:假设各维特征在给定类别标签的状况下是条件独立的。
(2)假设要进行分类,共有C个类别y∈ (1,2,…, C),每一个样本有特征x = (x1, …, xD),则给定类别标签下的条件几率为:
(3)进行分类(预测):
给定时间长度为T 的序列X1,…, XT,则链规则:
即第t时刻的状态Xt只与前t-1个时刻的状态X1:t-1相关。
假设第t时刻的状态Xt只与前一个时刻的状态Xt-1相关,称为一阶Markov假设,获得的联合分布为Markov链(或Markov模型):
当Xt∈(1,2,…,k)为离散时,则条件分布p(Xt|Xt-1)可表示为一个K x K的矩阵|Aij|,称为转移矩阵,其中:
表示从状态i转移到状态j的几率,也称为叫作随机矩阵。
若是系统的状态不可见,只能观测到由隐含状态驱动的观测变量,则可用隐马尔可夫模型(Hidden Markov Model, HMM)表示联合几率:
其中:
其中zt表示第t时刻的隐含状态;
p(Zt|Zt-1)表示转移模型;
p(Xt|Zt)表示观测模型。
(1)定义
随机场能够当作是一组随机变量的集合(这些随机变量之间可能有依赖关系);
Markov随机场:加了Markov性质限制的随机场,可用无向图表示。
(2)MRF的参数化
1)
无向图中节点之间的边没有方向,不能用链规则表示联合几率,而是用图中每一个最大团C 的因子的乘积表示:
其中Z为归一化常数。
2)
或者,使用能量函数表示为:
3)
或者,将log势能函数表示为一些函数的线性组合:
其中,组合权重为Ɵ,ɸc为根据变量yc获得的特征。
则log联合分布表示为:
称为最大熵模型或log线性模型,在条件随机场(CRF)、(受限)Boltzmann机(RBM)可用此形
式表示联合几率。
条件随机场(Conditional Random Field,CRF):
给定MRF中的每一个随机变量下面还有观测值,则给定观测条件下MRF的分布:
其中,x为观测集合。
- tany 2017年10月7日于杭州
人工智能从入门到专家教程资料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765