做者|Satyam Kumar
编译|VK
来源|Towards Data Sciencepython
Q-Q图是检验任何随机变量(如正态分布、指数分布、对数正态分布等)分布的图形方法,是观察任何分布性质的一种统计方法。app
例如,若是给定的一个分布须要验证它是不是正态分布,咱们运行统计分析并将未知分布与已知正态分布进行比较。而后经过观察Q-Q图的结果,咱们能够肯定给定的分布是否正态分布。dom
给定一个随机分布,须要验证它是否为正态/高斯分布。为了便于理解,咱们将这个未知分布命名为X,将已知的正态分布命名为Y。机器学习
X = np.random.normal(loc=50, scale=25, size=1000)
咱们正在生成一个正态分布,有1000个值,平均值=50,标准差=25。学习
查找1%~100%:spa
X_100 = [] for i in range(1,101): X_100.append(np.percentile(X, i))
计算每一个百分位数(1%,2%,3%,. . .,99%,100%)X的随机分布值,并将其存储在X_100中。.net
Y = np.random.normal(loc=0, scale=1, size=1000)
生成一个正态分布,其平均值为0,标准误差为1,须要与未知分布X进行比较,以验证X分布是否正态分布。code
Y_100 = [] for i in range(101): Y_100.append(np.percentile(Y, i))
计算每一个百分位数(1%,2%,3%,. . .,99%,100%)Y的随机分布值,并将其存储在Y_100中。orm
为以上得到的未知分布值绘制散点图。blog
这里X是未知分布,要与Y这个正态分布相比。
对于Q-Q图,若是图中的散点在一条直线上,则两个随机变量具备相同的分布,不然它们具备不一样的分布。
从上面的Q-Q图能够看出X是正态分布的。
若是X不是正态分布,而且它有其余分布,那么若是Q-Q图是在X和正态分布之间绘制的,那么散射点就不会在一条直线上。
这里,X分布是对数正态分布,所以Q-Q图中的散射点不是直线。
这是4个不一样条件下X和Y分布的Q-Q图。
import numpy as np import matplotlib.pyplot as plt X = np.random.normal(loc=50, scale=25, size=1000) X_100 = [] for i in range(1,101): X_100.append(np.percentile(X, i)) Y = np.random.normal(loc=0, scale=1, size=1000) Y_100 = [] for i in range(1,101): Y_100.append(np.percentile(Y, i)) plt.scatter(X_100, Y_100) plt.grid() plt.ylabel("Y - normal distribution") plt.xlabel("X - normal distribution") plt.show()
Q-Q图能够用来比较任意两个分布,而且能够经过与已知分布的比较来验证未知分布。这种方法有一个主要的局限性,即须要大量的数据点,由于得出较少的数据不是明智的决定。经过观察Q-Q图能够预测这两种分布是否相同。
原文连接:https://towardsdatascience.co...
欢迎关注磐创AI博客站:
http://panchuang.net/
sklearn机器学习中文官方文档:
http://sklearn123.com/
欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/