信息论和数理统计——机器学习基础

1、信息论

信息论处理的是客观世界中的不肯定性。
通讯的基本问题是在一点精确地或近似地复如今另外一点所选取的消息。在生活中,信息的载体是消息。
不一样的消息带来的信息在直观感受上不是彻底相同的,好比“马云得到奥赛健美冠军”比“施瓦辛格得到奥赛健美冠军”的信息要大得多。
由于前者是小几率事件,然后者咱们已经习觉得常。不肯定性越大的消息提供的信息量越大。算法

一个系统内在的混乱程度机器学习

信源

产生消息(符号)、消息序列和连续消息的来源。函数

信息量

信息多少的量度
在信息论中,若是事件A发生的几率为\(p(A)\),则这个事件的自信息量定义为
\(h(A)=−log_2p(A)\)
好比:当\(p(A\))为1/1000得出信息量约为10,当\(p(A)\)为1/2得出的信息量约为1工具

信息熵

信息熵是信源可能发出的各个符号的自信息量在信源构成的几率空间上的统计平均值。
根据单个事件的自信息量能够计算包含各个符号的信源的信息熵
若是一个离散信源X包含n个符号,每一个符号\(a_i\)的取值为\(p(a_i)\),则X的信源熵为
\(H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)\)性能

条件熵

在几率论中有条件几率的概念,将条件几率扩展到信息论中,就能够获得条件熵。
若是两个信源之间具备相关性,那么在已知其中一个信源X的条件下,另外一个信源熵就会减少。
条件熵\(H(Y∣X)\)表示的是在已知随机变量\(X\)的条件下,另外一个随机变量\(Y\)的不肯定性,也就是在给定\(X\)时,根据\(Y\)的条件几率计算出的熵再对\(X\)求数学指望学习

$ H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i) $测试

\(=-\sum_{i=1}^np(x_i)\sum_{j=1}^mp(y_i|x_i)log_2p(y_i|x_i)\)编码

\(=-\sum_{i=1}^n\sum_{j=1}^np(x_i,y_i)log_2p(y_j|x_i)\)spa

条件熵的意义在于先按照变量\(X\)的取值对变量Y进行了一次分类,对每一个分出来的类别计算其单独的信息熵,再将每一个类的信息熵按照\(X\)的分布计算其数学指望。code

信息增益

在机器学习中,信息增益描述了一个特征带来的信息量的多少,常于分类特征的选择,也叫互信息

信息增益=信息熵-条件熵

假设存在一个随机变量\(X\),和另一个随机变量\(Y\),那他们的信息增益是

\(I(X;Y)=H(Y)-H(Y|X)\)

能够理解为X给Y带来的信息增益。
对于给定的训练数据集\(Y\)\(H(Y)\)表示在未给定任何特征时,对训练集进行分类的不肯定性
\(H(Y|X)\)表示了使用特征\(X\)对训练集\(Y\)进行分类的不肯定性.
信息增益表示的是特征\(X\)带来的对训练集\(Y\)分类不肯定性的减小程度,也就是特征\(X\)对于训练集\(Y\)的区分度。

信息增益比

信息增益值很大程度依赖于数据集的信息熵\(H(Y)\),于是不具备绝对意义。为了解决这个问题,研究者提出了信息增益比

\(g(X,Y)=I(X;Y)/H(Y)\)

相对熵

相对熵也叫KL散度,用于描述两个不一样几率分布之间的差别。

\(D_{KL}(P||Q)=\sum_{i=1}^np(x_i)log_2\frac{p(x_i)}{q(x_i)}\)

相对熵是用来度量使用基于\(P\)的编码来编码来自\(Q\)的样本平均所需的额外的比特个数。

最大熵原理

在只掌握未知分布的部分知识时,应该选取符合这这些知识但熵值最大的几率分布。
最大熵原理实质是知足已知的知识前提下,对于未知的分布应该是本身最不能肯定或最随机的分布,由于只有这样,最终的分布才能表明一个最公平的选择。

信息论使用“信息熵”的概念,对单个信源的信息量和通讯中传递信息的数量与效率等问题作出了解释,并在世界的不肯定性和信息的可测量性之间搭建起一座桥梁

2、数理统计

数理统计(mathematical statistics)的任务是根据可观察的样本反过来推断整体的性质
推断的工具是统计量,统计量是样本的函数,是个随机变量
数理统计根据观察或实验获得的数据来研究随机现象,并对研究对象的客观规律作出合理的估计和判断。
基础的统计理论有助于对机器学习的算法和数据挖掘的结果作出解释,只有作出合理的解释,数据的价值才可以体现。

泛化能力:模型用于不属于测试集的新样本的能力。泛化能力越强,学习器越好

与几率论的区别

几率论在找下一个点,数理统计则是局部推总体

  • 几率论做用的前提是随机变量的分布已知,根据已知的分布来分析随机变量的特征和规律;
  • 数理统计的研究对象是未知分布的随机变量,研究方法是对随机变量进行独立重复的观察,根据获得的观察对原始分布作出推断。
    数理统计能够当作是逆向的几率论,更偏向于从理论角度研究方法论,进而探讨如何应用

以买彩票为例

  • 几率论解决的是根据已知的摇奖规律判断一注号码中奖的可能性
  • 数理统计解决的是根据以前屡次中奖/不中奖的号码记录以必定的精确性推测摇奖的规律,虽然可能没什么用。

统计推断方式一:参数估计

参数估计经过随机抽取的样原本估计整体分布的未知参数,包括点估计和区间估计

  • 点估计(point estimation)
    具体的方法包括矩估计法(method of monents)和最大似然估计法(maximum likelihood estimation)
    两种方法都表明了推断整体参数的思路,可是对于同一个参数,用不一样的估计方法求出的估计量极可能存在差别,这一般用无偏性、有效性、一致性来评价
  • 区间估计(interval estimation)
    区间估计至关于在点估计的基础上进一步提供了取值范围和偏差界限

统计推断方式二:假设检验

经过随机抽取的样原本接受或拒绝关于整体的某个判断

假设检测的做用是根据学习器在测试集上的性能推断其泛化能力的强弱,并肯定所得结论的精确程度,能够进一步推广为比较不一样学习器的性能。

泛化性偏差的构成能够为三部分:

  • 误差(bias)
    算法预测值和真实结果之间的偏离程度,刻画的是模型的欠拟合我
  • 方差(variance)
    表示数据的扰动对预测性能的影响,刻画的是模型的过拟合特性
  • 噪声(noise) 表示当前学习任务上可以达到的最小泛化偏差,刻画的是任务自己的难度
相关文章
相关标签/搜索