信息论处理的是客观世界中的不肯定性。
通讯的基本问题是在一点精确地或近似地复如今另外一点所选取的消息。在生活中,信息的载体是消息。
不一样的消息带来的信息在直观感受上不是彻底相同的,好比“马云得到奥赛健美冠军”比“施瓦辛格得到奥赛健美冠军”的信息要大得多。
由于前者是小几率事件,然后者咱们已经习觉得常。不肯定性越大的消息提供的信息量越大。算法
一个系统内在的混乱程度机器学习
产生消息(符号)、消息序列和连续消息的来源。函数
信息多少的量度
在信息论中,若是事件A发生的几率为\(p(A)\),则这个事件的自信息量定义为
\(h(A)=−log_2p(A)\)
好比:当\(p(A\))为1/1000得出信息量约为10,当\(p(A)\)为1/2得出的信息量约为1工具
信息熵是信源可能发出的各个符号的自信息量在信源构成的几率空间上的统计平均值。
根据单个事件的自信息量能够计算包含各个符号的信源的信息熵
若是一个离散信源X包含n个符号,每一个符号\(a_i\)的取值为\(p(a_i)\),则X的信源熵为
\(H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)\)性能
在几率论中有条件几率的概念,将条件几率扩展到信息论中,就能够获得条件熵。
若是两个信源之间具备相关性,那么在已知其中一个信源X的条件下,另外一个信源熵就会减少。
条件熵\(H(Y∣X)\)表示的是在已知随机变量\(X\)的条件下,另外一个随机变量\(Y\)的不肯定性,也就是在给定\(X\)时,根据\(Y\)的条件几率计算出的熵再对\(X\)求数学指望学习
$ H(Y|X)=\sum_{i=1}^np(x_i)H(Y|X=x_i) $测试
\(=-\sum_{i=1}^np(x_i)\sum_{j=1}^mp(y_i|x_i)log_2p(y_i|x_i)\)编码
\(=-\sum_{i=1}^n\sum_{j=1}^np(x_i,y_i)log_2p(y_j|x_i)\)spa
条件熵的意义在于先按照变量\(X\)的取值对变量Y进行了一次分类,对每一个分出来的类别计算其单独的信息熵,再将每一个类的信息熵按照\(X\)的分布计算其数学指望。code
在机器学习中,信息增益描述了一个特征带来的信息量的多少,常于分类特征的选择,也叫互信息
信息增益=信息熵-条件熵
假设存在一个随机变量\(X\),和另一个随机变量\(Y\),那他们的信息增益是
\(I(X;Y)=H(Y)-H(Y|X)\)
能够理解为X给Y带来的信息增益。
对于给定的训练数据集\(Y\),\(H(Y)\)表示在未给定任何特征时,对训练集进行分类的不肯定性
\(H(Y|X)\)表示了使用特征\(X\)对训练集\(Y\)进行分类的不肯定性.
信息增益表示的是特征\(X\)带来的对训练集\(Y\)分类不肯定性的减小程度,也就是特征\(X\)对于训练集\(Y\)的区分度。
信息增益值很大程度依赖于数据集的信息熵\(H(Y)\),于是不具备绝对意义。为了解决这个问题,研究者提出了信息增益比
\(g(X,Y)=I(X;Y)/H(Y)\)
相对熵也叫KL散度,用于描述两个不一样几率分布之间的差别。
\(D_{KL}(P||Q)=\sum_{i=1}^np(x_i)log_2\frac{p(x_i)}{q(x_i)}\)
相对熵是用来度量使用基于\(P\)的编码来编码来自\(Q\)的样本平均所需的额外的比特个数。
在只掌握未知分布的部分知识时,应该选取符合这这些知识但熵值最大的几率分布。
最大熵原理实质是知足已知的知识前提下,对于未知的分布应该是本身最不能肯定或最随机的分布,由于只有这样,最终的分布才能表明一个最公平的选择。
信息论使用“信息熵”的概念,对单个信源的信息量和通讯中传递信息的数量与效率等问题作出了解释,并在世界的不肯定性和信息的可测量性之间搭建起一座桥梁
数理统计(mathematical statistics)的任务是根据可观察的样本反过来推断整体的性质
推断的工具是统计量
,统计量是样本的函数
,是个随机变量
数理统计根据观察或实验获得的数据来研究随机现象,并对研究对象的客观规律作出合理的估计和判断。
基础的统计理论有助于对机器学习的算法和数据挖掘的结果作出解释,只有作出合理的解释,数据的价值才可以体现。
泛化能力:模型用于不属于测试集的新样本的能力。泛化能力越强,学习器越好
几率论在找下一个点,数理统计则是局部推总体
以买彩票为例
摇奖规律
判断一注号码中奖的可能性摇奖的规律
,虽然可能没什么用。参数估计经过随机抽取的样原本估计整体分布的未知参数,包括点估计和区间估计
经过随机抽取的样原本接受或拒绝关于整体的某个判断
假设检测的做用是根据学习器在测试集上的性能推断其泛化能力的强弱,并肯定所得结论的精确程度,能够进一步推广为比较不一样学习器的性能。
泛化性偏差的构成能够为三部分: