条件熵定义

时间 2019-12-07

标签条件定义繁體版

原文原文链接

条件熵定义的最原始形式

\[ H(Y|X)=\sum_{x\in X} p(x)H(Y|X=x) \]spa

或者写成这样数学

\[ H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) \]it

这里 \(n\) 表示随机变量 \(X\) 取值的个数，无论是条件熵仍是熵，都是计算 \(Y\) （能够理解为因变量）的熵，\(H(Y|X)\) 能够理解为在已知一些信息的状况下，因变量 \(Y\) 的不纯度，即在
\(X\) 的划分下，\(Y\) 被分割愈来愈“纯”的程度，即信息的加入能够下降熵。io

这里又假设随机变量 \(Y\) 有 \(m\) 个取值，将 \(H(Y|X=x_i)\) 用定义式
\[H(Y|X=x_i) = - \sum_{j=1}^{m} p(y_j|X=x_i)\log p(y_j|X=x_i)\] 代入上式，得class

\[ \begin{equation}\begin{split} H(Y|X)&=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) \\ &=\sum_{i=1}^{n} p(x_i)\left(- \sum_{j=1}^{m} p(y_j|X=x_i) \log p(y_j|X=x_i)\right)\\ &=-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i) \end{split}\end{equation} \]变量

即
\[ H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) =-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i) \]di

条件熵表示在已知随机变量 \(X\) 的条件下，\(Y\) 的条件几率分布的熵对随机变量 \(X\)的数学指望。
熵是数学指望（信息量的数学指望），条件熵也是数学指望，是数学指望的数学指望，有点拗口，不妨把定义多看几遍，就清楚了。