猪猪的机器学习笔记(七)最大熵模型

最大熵模型

做者:樱花猪算法

 

摘要:机器学习

本文为七月算法(julyedu.com12月机器学习第七次课在线笔记。熵,这个概念对于咱们来讲既熟悉又陌生,熟悉的是咱们在许多领域都会碰到熵这个概念,陌生的是若是真的让你解释它又说不清道不明。本次课程讨论了熵的概念并详细解释了最大熵模型。此次课承上启下,将前几回课程所埋的坑一一填起,又为接下来更加深刻的机器学习作了铺垫。ide

 

引言:函数

熵的概念对我来讲既陌生又熟悉,在看论文中经常会碰到“熵”可是却老是以为差一口气来解释它。经过此次课程,终于对于熵这个概念有了一个更加具体和感性的认识,再也不单单局限于冰冷的公式。最大熵模型在机器学习以及其余算法中都有所提到,是一种很是常见又有用的方法。本文首先阐述了有关于“熵”的一些概念,而后详细的介绍了最大熵模型和其应用。学习

 

预备知识:spa

参数估计、几率论、方阵的导数3d

 

熵及相关概念orm

最大熵模型blog

ICA事件

 

1、熵及相关概念

1、信息量

   当一个小几率事件发生了,那么这个事件的信息量很大;反之若是一个大几率事件发生了,这个事件的信息量就不多。根据这个描述,咱们能够构造一个信息量的表达式:

   若事件A发生的几率为P,那么A的信息量为:

二、

   对随机事件的信息量求指望,得熵的定义:

注:经典熵的定义,底数是2,单位是bit

 

三、联合熵Joint Entropy

 

四、条件熵

Y发生的前提下,X发生“新”带来的熵 。

互信息表示法:

 

五、相对熵

   相对熵,又称互熵,交叉熵,鉴别信息,Kullback 熵,Kullback-LeibleKL)散度等。

   相对熵能够度量两个随机变量的“距离”,K-L距离;是很是重要的概念。:K-L距离是非对称的。

   公式:、

   设p(x)q(x)X中取值的两个几率分布,则pq的相对熵

    

假定使用KL(Q||P),为了让距离最小,则要求在P0的地方,Q尽可能为0。会获得比较“窄”的分布曲 线;

假定使用KL(P||Q),为了让距离最小,则要求在P不为0的地方,Q也尽可能不为0。会获得比较“宽”的分 布曲线;

 

六、互信息

   两个随机变量XY的互信息,定义为XY 的联合分布和独立分布乘积的相对熵。

注:能够联系“互信息”

 

七、整理

对偶式:

 

2、最大熵模型

一、最大熵模型原则

a. 认可已知事物(知识)

b. 对未知事物不作任何假设,没有任何偏见

 

二、最大熵模型Maxent

P={p | pX上知足条件的几率分布}

 

三、求解过程:

最大熵模型MaxEnt的目标拉格朗日函数L

 

归一化因子:

 

 

五、应用:

ICA独立成分分析

ICA的目标函数:

   ICA能够用最大化各个成分的统计独立性做为目标函数。

  “独立性”判断原则为:

a. 最小化各个成分的互信息(MMIK-L散度、最大熵)

b. 最大化各个成分的非高斯性

PCA:主成分分析;分出来是不相关的。

ICA:独立成分分析。分出来是独立的。

六、极大似然估计和最大熵模型

     根据极大似然估计的正确性能够判定:最大熵的解 (无偏的对待不肯定性)是最符合样本数据分布的解,即最大熵模型的合理性。

信息熵能够做为几率分布集散程度的度量,使用熵的近似能够推导出基尼系数,在统计问题、决策树 等问题中有重要做用。

熵:不肯定度

似然:与知识的吻合程度

最大熵模型:对不肯定度的无偏分配

最大似然估计:对知识的无偏理解

知识=不肯定度的补集



相关文章
相关标签/搜索