随机变量的分布函数(或几率函数,或密度函数)已经很是全面了,精确地描述了这个随机变量取值的统计规律性,那为何咱们还须要研究随机变量的数字特征呢?这个小节咱们来讨论一下这个话题。html
在不少实际问题中(特别是一些具体的非物理的问题域),从实际问题场景中采样获得的样本集,通常时候都不会100%符合一个经典几率分布(例如泊松分布、高斯分布等)。安全
例以下图中,黑点表示咱们目前已知的样本点分布,蓝色曲线表示某个非线性函数公式,恰好可以完美拟合这个样本集:网络
虽然上图表面看好像已经拟合成功了,可是理论上来讲,咱们是没法写出准确的几率分布函数的,主要缘由有如下几个方面: 函数
采样不充分问题:一方面是因为采样不充分,根据随机过程抽样或者蒙特卡洛抽样获得的样本点极可能只是真实几率几率分布样本空间的一个有限不均衡子集。采样不充分是很是常见的,最极端的例子就是天文学和宇宙学,例如2019年很著名的黑洞照片,实际上是科学家们基于很是少的光子,经过数学建模的方式而“还原模拟”出来的。关于大数定理的其余讨论,能够参阅另外一篇文章。优化
除了精确描述抽象事物的几率分布困难以外,在一些时候,咱们有时候可能也并不须要去求出随机变量的准确几率分布。相反,咱们关心只是随机变量的取值在某些方面的统计数字特征,而不是它的全貌。典型的例子如:spa
这类特征每每经过若干个实数来反映,在几率论中称它们为随机变量(或该随机变量所服从的相应分布)的数字特征。.net
随机变量的数字特征有不少,这里列举一些理论分析和工程应用中经常使用的数字特征:code
咱们在这篇文章中选择一些在数据分析和网络安全数学建模经常使用的数字特征进行讨论,这也是笔者比较关注的领域,关于其余部分的详细讨论,建议读者朋友阅读原书。htm
Relevant Link: blog
《几率论与数理统计》同济大学数学系 第四章
设离散型随机变量 X 的几率函数为:
当级数收敛时,称
的值为随机变量 X 的数学指望(简称为指望或均值),记做E(X),即:
因为随机变量的分布刻画了随机变量取值的统计规律性,所以,当 X 服从某个分布时,咱们也称E(X)是这个分布的指望。
若是随机变量知足等该模型,则指望公式就退化成了咱们熟悉的“求平均数”公式。
设连续型随机变量 X 的密度函数为f(x),当积分收敛时,称
的值为随机变量 X 的数学指望(简称指望或均值),记做:
数学指望的性质以下:
当X~B(n,p)时,X的几率函数为
所以,根据指望的数学计算公式得:
当X~P(λ)时,X的几率函数为
所以有:
当X~U(a,b)时,X的指望为:
当X~E(λ)时,X的指望为:
当X~N(μ,σ)时,X的指望为:
整体地归纳来讲,指望E(X)的直观含义是:指望反映了随机变量 X 的平均取值,具体对于不一样的几率分布来讲,平均取值的具体含义和代指会有所变化和不一样。
二项分布的指望值E(X)=np,其意义表示随机变量X的平均值,或平均水平。
在具体问题中,例如金融组合分组,若是对投资结果进行数学建模,则指望表明投资结果的平均值。
泊松分布的指望值是λ,其意义表示某个时间段内,随机事件发生的平均次数。
均匀分布的指望值是样本值域区间的中位数,中心点。
指数分布的指望是1/λ,其意义表示某个时间段,随机事件发生的平均时间间隔。它和泊松分布正好互为倒数。
数学指望刻画随机变量取值的平均数,有直观含义,同时它也有物理含义。
若在数轴上放置一单位质量的细棒,在离散点 xi 处分布着质点其质量为 mi,则表示该细棒的重心坐标。
若在数轴上放置一单位质量的细棒,它又质量密度函数f(x),则表示该细棒的重心坐标。以下图所示:
设X是一个随机变量,称
为X的方差,称为X的标准差(或标准误差)
在工程技术中普遍地使用标准差,由于它与随机变量自己有相同的量纲(具备实际物理意义)。可是在理论推导中,使用方差较方便。
值得注意的是,方差本质上是随机变量函数的指望,即随机变量和均值离差的指望,因此有:
当n=1时,画出其函数图:
能够看到,当正反事件几率相同,即等概的时候,方差达到最大值。这也是几率分布的最大熵原理。
随着试验次数n的增长,总体方差也线性增大。
可见对于伯努利实验结果来讲,实验次数增长,指望和方差都是不收敛的,会无限增大。
当X ~ P(λ)时,E(X) = λ,,所以, 泊松分布的方差为
泊松分布的指望和方差是相等的,都等于λ。
当X~R(a,b)时,E(X) = 1/2 * (a + b ),因此有
所以,均匀分布的方差为
当X~E(λ)时,,所以,指数分布的方差为
值得注意的是,方差和标准差并非惟一的用来度量的数据分布波动程度的数字特征,数学上极差也能够发挥相似的做用,除此以外,组合型数字特征也是数据分析中经常使用的统计量。
Relevant Link:
《几率论与数理统计》同济大学数学系 第四章 第一节
已知X是任意的随机变量,当E(X)和D(X)存在时,对随机变量X做变换:
这个变换称之为随机变量中心化。
由指望与方差的性质推得:
即中心化后的随机变量,指望为0,方差不变。
当D(X)>0时,对随机变量X做变换:
这个变换称之为随机变量标准化。
由指望与方差的性质推得:
须要注意的是,本章讨论的随机变量中心化和标准化,属于特征工程里特征归一化的处理方法之一,除此以外还有其余的特征归一化处理方法,关于这部分的讨论,能够参阅另外一篇文章。
Relevant Link:
《几率论与数理统计》同济大学数学系 第四章 第二节
单个随机变量的数学特性当然很是有用,可是在理论分析和工程实践中,遇到最多的仍是两个及多个随机变量之间的互相关系。这节咱们来讨论两个随机变量之间的相互关系,多个随机变量之间的关系是相似的,能够以此类推。
设(X,Y)是一个随机变量,称
为随机变量X和Y的协方差。
按照方差的定义,cov(X,X)= D(X)。协方差本质上是二维随机变量函数g(X,Y) = [X - E(X)][Y - E(Y)]的指望,即两个随机变量方差之间的关系。
计算时经常使用下列公式:
协方差反映了X和Y之间的协同变化关系,具体为:
设Z = [X - E(E)] [Y - E(Y)],cov(X,Y) = E(Z),则
特别的,当Y= X时,cov(X,Y) = cov(X,X) = D(X),协方差退化为方差。
利用协方差,能够把两个随机变量方差公式表达成:
协方差考察了随机变量之间协同变化的关系,可是在实际使用中存在一个问题,即量纲不一致问题。例如,若是要讨论新生婴儿的身高X和体重Y的协方差,若采用两个不一样的单位,“米和千克”或者“厘米和克”,后者协方差可能会是前者的数千倍!因为量纲的不一样致使X与Y的协方差先后不一样。
实际上,回顾文章前面中心化和标准化的知识可知,协方差其实是把X,Y分别中心化后的,它的值受X与Y量纲大小的影响。为了解决量纲不一致的问题,就有了相关系数。
设(X,Y)是一个二维随机变量,当D(X) > 0,D(Y) > 0时,称为X与Y的相关系数,记做ρ(X,Y),即
这就是随机变量X和Y的相关系数,又称为标准化协方差。
利用相关系数,能够把方差的公式表达成
设(X,Y)是一个二维随机变量,当ρXY = 0时,下列命题等价:
设(X,Y)是一个二维随机变量,当D(X) > 0,D(Y) > 0时,相关系数有以下性质:
随机变量相互独立和线性无关都刻画了随机变量之间的关系,相互独立时必定线性无关,但反之不必定成立,以下图:
举例说明,设随机变量Z服从区间[0,2π]上的均匀分布,令 X = sinZ,Y = cosZ
根据边缘几率分布公式得:
根据方差公式有:
,同理有
根据指望公式有:
根据协方差公式有:
因此随机变量X和Y不相关。
可是由于,因此f(X,Y) != f(X) * f(Y),因此X与Y不相互独立。
可见,相互独立是一种比不相关更强的关系。能够这样说:
对于二维随机变量(X,Y),称向量
为(X,Y)的指望向量(或均值向量),称矩阵
为(X,Y)的协方差矩阵,因为cov(X,X) = D(X),所以,n维随机向量(X1,... ,Xn)的协方差矩阵为
Relevant Link:
《几率论与数理统计》同济大学数学系 第四章 第四节
有一个公司,每个月的广告费用和销售额,以下表所示:
咱们把广告费和销售额画在二维坐标内,就可以获得一个散点图,利用一元线性回归作出一条拟合直线,y = ax + b。
使用最小二乘法进行参数估计,就能够求出a和b了。
最终的回归拟合直线为:Y=1.98X+2.25。
从几率分布的角度来看线性回归模型的参数估计过程。咱们设样本点对应的随机变量为X,参数对应的随机变量为Y。
从上图能够获得:ρ(X,Y) != 1
因此X和Y不知足彻底线性相关的关系,也即:不存在不为零的常数k与常数c,使得P(Y = kX + c) = 1
从线性方程组求解的角度来看,直接基于原始输入样本点求解线性方程组就是无解的。
因此,线性方程组引入了”显著性检验“这个度量方法,用来评估参数估计的结果和目标样本点的拟合程度,经常使用的显著性检验方法包括:
这里咱们以R2为例进行说明,在R2中,量化度量拟合程度的公式以下
R2显著性由两个不一样的偏差损失,SSR和SSE比例相除获得。
SSE和SSR共同组成了SST(总残差损失),咱们分别介绍
残差平方和(SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平方和,它是除了x对y的线性影响以外的其余因素对y变化的做用,是不能由回归直线来解释的
R^2的取值在[0,1]之间,越接近1说明拟合程度越好。
如今回到随机变量协方差的视角,重写上述SSR和SSE公式,会发现:
因此总R2显著性公式本质上度量了参数随机变量X和样本随机变量Y之间的协同关系,即协方差。协方差越接近1,拟合程度就越高。
上个小节咱们用了一个具体的例子来讲明了线性回归中参数估计拟合程度和随机变量中相关系数的等价关系。这个小节咱们将这个结果泛化为通常性的结论。
回归系数b是有单位的,但若对b做消去单位的标准化处理,即对b中x,y的离均差以各自的标准差 和
为单位:
故有时将相关系数称为标准回归系数
则
可改写为:
笔者这里用随机变量相关性分析的视角来讨论回归分析,并非说相关分析和回归分析是同一个东西。
相关分析与回归分析在实际应用中有密切关系。然而它们存在着不一样:
例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是两者的关系如何,而不在于由X去预测Y
Relevant Link:
https://www.cnblogs.com/LittleHann/p/7354706.html#_label1 https://zhuanlan.zhihu.com/p/49221154 https://blog.csdn.net/mengjizhiyou/article/details/82177830 https://blog.csdn.net/xiaojianpitt/article/details/5453023 http://soundrain.net/2017/05/25/20170525-%E4%BB%8E%E7%BB%9F%E8%AE%A1%E5%AD%A6%E8%A7%92%E5%BA%A6%E7%9C%8B%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E4%B8%AD%E7%9A%84%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0/
回归模型的参数最优化的目标是获得一个最优的判别式模型,而模型参数几率密度估计的目标是获得一个生成式几率模型。
简单来讲,他们之间的联系是:经过损失函数最优化技巧获得的模型参数,等价于求E(X - Yobj),即参数随机变量和样本点的差值函数的指望均值。
关于这方面的讨论,能够参阅另外一篇文章。
若是将回归模型的参数空间看做是是一个几率分布的话,损失函数求解的目标就是寻找和样本随机变量相关度最高的参数随机变量分布。除了相关性度量以外,还能够从信息论KL散度角度来度量参数估计结果和样本分布的拟合程度。
这个话题的一些讨论能够参阅这篇文章。关于信息论和熵原理的更多讨论,笔者会在以后的迭代中继续完善这篇文章。