《统计自然语言处理》学习笔记

时间 2020-12-24

原文原文链接

概率论最大似然估计：用相对频率作为概率的估计值，这种估计概率值的方法称为最大似然估计贝叶斯法则：条件概率计算的依据二项分布：n重伯努利试验，试验只有两种结果，且每次试验相互独立。信息论熵：entropy，自信息，描述一个随机变量的不确定性。熵越大，不确定性越大。联合熵：X和Y是离散随机变量，则X和Y的联合熵为其中logP(x,y)为联合概率，利用条件概率展开后，可得，称为熵的连锁规

>>阅读原文<<