几率分布之间的距离度量以及python实现(三)

时间 2019-12-07

原文原文链接

几率分布之间的距离，顾名思义，度量两组样本分布之间的距离。html

一、卡方检验python

统计学上的 $χ 2 统计量，因为它最初是由英国统计学家Karl Pearson在1900年首次提出的，所以也称之为Pearson χ 2 ，其计算公式为$ git

$\chi^2=\sum \frac{(A-E)^2}{E}=\sum_{i=1}^k \frac{(A_i-E_i)^2}{E_i}=\sum_{i=1}^k \frac{(A_i-np_i)^2}{np_i}$ 　　(i=1，2，3，…，k)

　　其中， $A i 为i水平的观察频数， E i 为i水平的指望频数，n为总频数， p i 为i水平的指望频率。i水平的指望频数 E i 等于总频数n\timesi水平的指望几率 p i 。当n比较大时， χ 2 统计量近似服从k-1(计算 E i 时用到的参数个数)个自由度的卡方分布。$ 框架

卡方检验常常用来检验某一种观测分布是否是符合某一类典型的理论分布（如二项分布，正态分布等)。 $观察频数与指望频数越接近，二者之间的差别越小， χ 2 值越小；$ 若是两个分布彻底一致， $χ 2 值为0；反之，观察频数与指望频数差异越大，二者之间的差别越大， χ 2 值越大。$ $换言之，大的 χ 2 值代表观察频数远离指望频数，即代表远离假设。小的 χ 2 值代表观察频数接近指望频数，接近假设。所以， χ 2 是观察频数与指望频数之间距离的一种度量指标，也是假设成立与否的度量指标。若是 χ 2 值“小”，研究者就倾向于不拒绝 H 0 ；若是 χ 2 值大，就倾向于拒绝 H 0 。至于 χ 2 在每一个具体研究中究竟要大到什么程度才能拒绝 H 0 ，则要借助于卡方分布求出所对应的P值来肯定（一般取p=0.05)。$ 函数

$在python中的实现：$ 学习

# -*- coding: utf-8 -*-
'''
卡方公式(o-e)^2 / e
指望值和收集到数据不能低于5，o(observed)观察到的数据，e（expected）表示指望的数据
(o-e)平方，最后除以指望的数据e
'''
 
import numpy as np
from scipy.stats import chisquare        
list_observe=np.array([30,14,34,45,57,20])
list_expect=np.array([20,20,30,40,60,30])
 
#方法一:根据公式求解（最后根据c1的值去查表判断）
c1=np.sum(np.square(list_observe-list_expect)/list_expect)

#方法二：使用scipy库来求解
c2,p=chisquare(f_obs=list_observe, f_exp=list_expect)
'''
返回NAN，无穷小
''' 
if p>0.05 or p=="nan":
   print("H0 win,there is no difference")
else:
   print("H1 win,there is difference")

二、交叉熵编码

一般，一个信源发送出什么符号是不肯定的，衡量它的不肯定性能够根据其出现的几率来度量。几率大，出现机会多，不肯定性小；反之就大。spa

不肯定性函数f必须知足两个条件：code

1）是几率P的单调递降函数；orm

2）两个独立符号所产生的不肯定性应等于各自不肯定性之和，即f（P₁，P₂）=f（P₁）+f（P₂），这称为可加性。

同时知足这两个条件的函数f是对数函数，即

在信源中，考虑的不是某一单个符号发生的不肯定性，而是要考虑这个信源全部可能发生状况的平均不肯定性。若信源符号有n种取值：U₁…U_i…U_n，对应几率为：P₁…Pi…P_n，且各类符号的出现彼此独立。这时，信源的平均不肯定性应当为单个符号不肯定性-logP_i的统计平均值（E），可称为信息熵，即

假设如今有一个样本集中两个几率分布p,q，其中p为真实分布，q为非真实分布。假如，按照真实分布p来衡量识别一个样本所须要的编码长度的指望为：

H(p)=

可是，若是采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是：

H(p,q)=

咱们称H(p)为信息熵，称H(p,q)为交叉熵。

交叉熵在CNN分类中常常用到，用来做为预测值和真实标签值的距离度量。通过卷积操做后，最后一层出来的特征通过softmax函数后会变成一个几率向量，咱们能够看做为是几率分布q, 而真实标签咱们能够看做是几率分布p, 所以真实分布p和预测分布q的交叉熵就是咱们要求的loss损失值，即

在python中的实现：

import numpy as np
import tensorflow as tf
 
fea=np.asarray([6.5,4.2,7.4,3.5],np.float32)
label=np.array([1,0,0,0])

#方法一：根据公式求解
def softmax(x):
    return np.exp(x)/np.sum(np.exp(x),axis=0)
loss1=-np.sum(label*np.log(softmax(fea)))

#方法二：调用tensorflow深度学习框架求解
sess=tf.Session()
logits=tf.Variable(fea)
labels=tf.Variable(label)
sess.run(tf.global_variables_initializer())
loss2=sess.run(tf.losses.softmax_cross_entropy(labels,logits))
sess.close()

三、相对熵(relative entropy)

又称为KL散度（Kullback–Leibler divergence，简称KLD），信息散度（information divergence），信息增益（information gain）。

相对熵是交叉熵与信息熵的差值。即

相对熵=交叉熵-信息熵

KL(p||q)=H(p,q)-H(p)

表示用分布q模拟真实分布p相比用p模拟p，所需的额外信息。

相对熵（KL散度）有两个主要的性质。以下

（1）尽管 KL 散度从直观上是个度量或距离函数，但它并非一个真正的度量或者距离，由于它不具备对称性，即

(2)相对熵具备非负性

总结一下：

信息熵公式：

交叉熵公式：

相对熵公式：

三者的关系：

在python中的实现：

import numpy as np
import scipy.stats
 
p=np.asarray([0.65,0.25,0.07,0.03])
q=np.array([0.6,0.25,0.1,0.05])

#方法一：根据公式求解
kl1=np.sum(p*np.log(p/q))

#方法二：调用scipy包求解
kl2=scipy.stats.entropy(p, q)

四、js散度（Jensen-Shannon）

由于kl散度不具对称性，所以js散度在kl散度的基础上进行了改进：

现有两个分布p1和p2，

在python中的实现：

import numpy as np
import scipy.stats
 
p=np.asarray([0.65,0.25,0.07,0.03])
q=np.array([0.6,0.25,0.1,0.05])

M=(p+q)/2

#方法一：根据公式求解
js1=0.5*np.sum(p*np.log(p/M))+0.5*np.sum(q*np.log(q/M))

#方法二：调用scipy包求解
js2=0.5*scipy.stats.entropy(p, M)+0.5*scipy.stats.entropy(q, M)