【初等几率论】 04 - 数字特征

时间 2019-11-09

标签初等几率论数字特征繁體版

原文原文链接

　　随机变量的分布函数包含了它的所有信息，随之咱们就须要对随机变量进行一些定量分析，即经过相对简单的数值来度量随机变量的某些特征。有些特征对于随机变量来讲比较基本、比较重要，好比平均值、分散程度等，本篇就集中讨论这些特征。ide

1. 数学指望

1.1 指望的定义

　　随机变量可取到一些实数值，对其最经常使用的一种度量即是平均值，而每一个值上的几率（或几率密度）应看成为权值。具体来讲，在离散场合，把式（1）右定义为随机变量\(\xi\)的“平均值”，它也被称为数学指望。要注意一点，咱们但愿平均值不受\(x_i\)顺序的影响，故数学指望的定义还要加上绝对收敛的条件（式（1）左）。函数

\[\sum\limits_{i=1}^{\infty}|x_i|p(x_i)<\infty\;\Rightarrow\;E\xi=\sum\limits_{i=1}^{\infty}x_ip(x_i)\tag{1}\]工具

　　对连续场景，密度函数与本质上就是几率分布，故可将式（1）推广成式（2）左。当它绝对收敛时，也被称为\(\xi\)的数学指望。为了有统必定义，须要引进式（2）右的Stieltjes积分，它的严格定义和统一性证实须要用到实变函数的知识，如下仅借用其形式以免离散和连续的分类讨论。设计

\[E\xi=\int_{-\infty}^{+\infty}xp(x)\,\text{d}x;\;\;E\xi=\int_{-\infty}^{+\infty}x\,\text{d}F_{\xi}(x)\tag{2}\]ip

　　把平均值叫成数学指望实际上是有道理的，由于对随机现象来讲，它就是理论上的指望值。数学指望是对随机向量最基本的一个度量值，单一的度量值更便于应用，它存在于社会经济的各方面，为经济行为提供了决策的依据。同步

　　• 已知人群中某疾病的患病率为\(p\)，请设计一种验血方法，使得验血次数尽可能少（可混合验）；数学

　　• 有无限多的\(N\)种卡片，求集齐它们平均须要抽多少次？产品

　　• \(n\)根绳子放在箱子中，随机将绳头两两相连，求造成圈数的指望值。it

1.2 变量函数的指望

　　对随机变量的讨论，总离不开对其函数的分析，这里也照例看看随机变量函数的数学指望。若是理解了数学指望的定义，便知道它其实就是加权平均值，在这里变量函数就是值，而变量的几率仍是权值，故函数的指望必定是式（3）所示。固然这只是一个直观解释，严格证实仍是须要实变函数的知识。table

\[Eg(\xi_1,\cdots,\xi_n)=\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}g(x_1,\cdots,x_n)\,\text{d}F(x_1,\cdots,x_n)\tag{3}\]

　　式（3）通常计算起来比较困难，但利用积分运算的特色，在有些常见状况下能够简化运算。首先若是\(g(x_1,\cdots,x_n)=g_1(x_1)\cdots g_n(x_n)\)，且\(\xi_1,\cdots,\xi_n\)互相独立，则能够把积分分离获得式（4）。另外若是\(g(x_1,\cdots,x_n)=g_1(x_1)+\cdots+g_n(x_n)\)，不须要独立性便有式（5）成立。

\[E[g(x_1,\cdots,x_n)]=Eg_1(\xi_1)Eg_2(\xi_2)\cdots Eg_n(\xi_n)\tag{4}\]

\[E[g_1(\xi_1)+\cdots+g_n(\xi_n)]=Eg_1(\xi_1)+\cdots+Eg_n(\xi_n)\tag{5}\]

　　式（4）的典型特例是式（6）左，其中\(\xi_1,\cdots,\xi_n\)互相独立。式（5）的典型特例是线性函数（式（6）右），它不要求独立性，这一点很是有用。好比前面咱们已经知道：二项分布是独立的伯努利分布之和，帕斯卡分布是独立的几何分布之和，埃尔朗分布是独立指数分布的和，它们的指望值能够直接求得。

\[E\xi_1\xi_2\cdots\xi_n=E\xi_1E\xi_2\cdots E\xi_n;\;\;E\left(\sum_{i=1}^{\infty} a_i\xi_i+b\right)=\sum_{i=1}^{\infty} a_iE\xi_i+b\tag{6}\]

　　• \(M\)个产品中有\(m\)个次品，采用不放回抽样，求次品数的指望；

　　• （报童问题）卖报数服从泊松分布，求天天进多少张收益最大。

2. 方差

2.1 矩和方差

　　数学指望\(E\xi\)是随机变量的平均值，或者能够称做随机变量的中心\(\mu\)。上面还提过，数学指望是变量值的加权平均，稍做扩展即可定义式（7）左的\(k\)阶零点矩。之因此叫零点矩，是由于单个值是随机变量与\(0\)的误差的\(k\)次幂。若是以中心\(\mu\)为误差参考，则能够定义式（7）右的\(k\)阶中心矩。

矩在数学里有多相似的概念，是一个很常规的度量，这里仅做简单的讨论。

\[m_k=E\xi^k;\;\;c_k=E(\xi-E\xi)^k\tag{7}\]

　　和指望同样，矩也要先讨论存在性，因为\(|\xi|^{k-1}\leqslant 1+|\xi|^k\)，故有结论：若是\(k\)阶矩存在，则低于\(k\)阶的矩都存在。另外，不难按二项式展开\(k\)阶中心矩，获得式（8）左。而后用反演公式即可获得式（8）右，固然也能够直接计算。

\[c_k=\sum_{i=0}^{k}\binom{k}{i}(-m_1)^{k-i}m_i;\;\;m_k=\sum_{i=0}^{k}\binom{k}{i}m_1^{k-i}c_i\tag{8}\]

　　当\(k=2\)时，中心矩\(c_2\)能够当作是随机变量对中心偏离程度的一种度量（式（9）），它被称为随机变量的方差。因为矩的良好分析性质，选取\(c_2\)做为偏离度的度量很是便于处理。为了与随机变量有相同的量纲，也称\(\rho=\sqrt{D\xi}\)为标准差。

\[\rho^2=D\xi=E(\xi-E\xi)^2=E\xi^2-(E\xi)^2\tag{9}\]

　　关于方差和标准差，我有些本身的理解，可能不太准确。下面咱们不免会拿线性代数中的向量和随机变量作对比，我想在这里先创建一个直观的联系。向量能够看作是相对原点的一个偏移，标准化向量则是统一了偏移的绝对值而保利了方向信息。随机变量则能够看做是相对指望值的偏移，标准差是统一了偏移的绝对值而保留了分布信息。因而可知，中心矩比零点矩有更实际的意义，对随机变量作中心化处理每每是必须的。

2.2 方差的性质

　　刚才提到方差具备很好的分析性质，这里就举一些简单的例子，而且这些结论之后也是常常用到的。首先有一个简单的不等式（10），它代表中心是与随机变量误差最小的值，这也很符合“中心”的含义，用中心化的随机变量的\(2\)阶矩定义方差是明智的。

\[E(\xi-c)^2=E(\xi-E\xi)^2+(E\xi-c)^2\geqslant D\xi\tag{10}\]

　　方差表示随机变量对中心的偏移程度，这个描述有更具体的佐证吗？还真有！结论代表，方差能够用来估算随机变量在中心周围的分布。具体来看式（11）的推导，其中\(\varepsilon>0\)为任意正数，该式整理后即是著名的切比雪夫不等式（12）。这个不等式对中心某个范围外的随机变量进行了很好的估算，特别地，它还能够直接证实：方差为\(0\)的随机变量是常数。

\[D\xi\geqslant\int\limits_{|x-E\xi|\geqslant\varepsilon}\varepsilon^2\,\text{d}F(x)=\varepsilon^2P(|\xi-E\xi|\geqslant\varepsilon)\tag{11}\]

\[P(|\xi-E\xi|\geqslant\varepsilon)\leqslant\dfrac{D\xi}{\varepsilon^2}\tag{12}\]

　　最后仍是照例看看，随机变量的函数的方差如何计算。方差的计算比指望复杂的多，故函数的方差很难有好的性质，而且目前咱们的工具还不够。这里就先讨论最简单的一元一次函数\(\eta=k\xi+c\)，容易验证有式（13）成立，它代表偏移不影响误差，而缩放则影响较大，这是符合直觉的。有时候为了研究随机变量分布的本质特色，会将其均值和方差统一成\((0,1)\)，式（14）定义的\(\xi^*\)便叫标准化的随机变量。标准变量的切比雪夫不等式有更简单的表达式（15），体会刚才说的“本质特色”。

\[D(\xi+c)=D(\xi);\;D(k\xi)=k^2D(\xi)\tag{13}\]

\[\xi^*=\dfrac{\xi-E\xi}{\sqrt{D\xi}}\;\Rightarrow\;E\xi^*=0,\;D\xi^*=1\tag{14}\]

\[P(|\xi^*|\geqslant\varepsilon)\leqslant\dfrac{1}{\varepsilon^2}\tag{15}\]

2.3 协方差和相关系数

　　当研究线性函数的方差\(D(\xi+\eta)\)时，你会发现没法绕开对\(E\xi\eta\)的讨论，中心化后即是对式（16）的讨论，该式被称为\(\xi,\eta\)的协方差。不难发现，它是方差概念的推广，方差比如是向量的一个平方和范数，协方差则比如向量的内积，平方和范数是内积的特例，而方差是协方差的特例。为此，对协方差的研究，彻底能够参照对向量内积的研究。标准化的内积表示向量间的线性关系，内积为\(0\)表示向量正交，内积为\(\pm 1\)则是共线的。在欧几里得空间中，标准化内积更是直接表示了直线的夹角。

\[\text{cov}(\xi,\eta)=E[(\xi-E\xi)(\eta-E\eta)]=E(\xi\eta)-E\xi\cdot E\eta\tag{16}\]

　　为此，咱们很兴奋地大胆猜想，标准化后的协方差（式（17））必定也是随机向量某种“线性关系”的度量。咱们须要对此作进一步的验证，为简单起见，只需讨论中心化后的变量\(\xi,\eta\)，而此时\(\rho\)的表达式中只有\(E(\xi\eta)\)和\(E\xi^2\cdot E\eta^2\)。由形式特色，咱们不难想到想用判别式法，即由式（18）获得式（19）。它也被称为柯西不等式，等号成立的充要条件是，存在常数\(t_0\)使得\(\eta=t_0\xi\)。注意，柯西不等式自己是不须要\(\xi,\eta\)中心化的。

\[\rho=\dfrac{\text{cov}(\xi,\eta)}{\sqrt{D\xi\cdot D\eta}},\;\;(|\rho|\leqslant 1)\tag{17}\]

\[E(t\xi-\eta)^2=t^2E\xi^2-2tE(\xi\eta)+E\eta^2\geqslant 0\tag{18}\]

\[(E\xi\eta)^2\leqslant E\eta^2\cdot E\eta^2\tag{19}\]

　　有柯西不等式马上能获得\(|\rho|\leqslant 1\)，而且等号成立时有\(\xi^*=\pm\eta^*\)。这说明把\(\rho\)做为线性关系的度量是颇有合理的，\(\rho\)所以也被称为随机变量的相关系数。当\(\rho=0\)时咱们称随机变量是不相关的，须要强调的是这里的相关只是线性相关。随机变量\(\xi,\eta\)不相关的等价条件是\(E\xi\eta=E\xi E\eta\)，中心化后即是\(E\xi\eta=0\)，这和向量直交彻底对应！

　　到此为止，咱们能够继续研究方差\(D(\xi+\eta)\)了。首先容易有式（20）成立，该式有时能够用来计算协方差。当\(\xi,\eta\)不相关时，有\(\text{cov}(\xi,\eta)=0\)，\(D(\xi+\eta)\)便有了更简单的表达式\(D\xi+D\eta\)。更通常地，若是\(\xi_1,\cdots,\xi_n\)两两不相关，则有式（21）成立。

\[D(\xi+\eta)=E(\xi+\eta)^2=D\xi+D\eta+2\text{cov}(\xi,\eta)\tag{20}\]

\[D\left(\sum\limits_{i=1}^na_i\xi_i+b\right)=\sum\limits_{i=1}^na_i^2D\xi_i+b\tag{21}\]

　　因为不相关仅针对线性关系，它是比独立性更弱的条件，也就是说独立的随机变量必定是不相关的，这能够由等价条件\(E\xi\eta=E\xi E\eta\)直接得出。但反之，不相关的随机变量却也多是不独立的，举个简单的例子本身体会\(\eta=\xi^2\)。然而对独立同分布随机变量，式（21）必然成立，这个结论能够说明：取屡次测量的平均值能够下降偏差（式（22））。

\[D(\dfrac{1}{n}\sum\limits_{i=1}^n\xi_i)=\dfrac{\sigma^2}{n}\tag{22}\]

　　• 有两只铅笔，一样只测量两次，如何下降偏差？

2.4 线性回归

　　如今来考虑一个问题，假定随机变量\(\xi,\eta\)存在某个函数关系\(\eta=f(\xi)\)，但事先只知道它们的联合分布（由试验所得），则如何找到\(f(x)\)的最佳逼近\(g(x)\)？何为最佳逼近？有了方差的基本思想后，可知要求\(E(\eta-g(\xi))^2\)达到最小是比较合理的。相似式（10）的证实，显然应该取\(g(x)=E\{\eta|\xi=x\}\)，为此随机变量\(g(\xi)=E\{\eta|\xi\}\)也被称为\(\eta\)关于\(\xi\)的回归。容易验证它知足式（23），它被称为重指望公式，能够用来间接计算\(E\eta\)。

\[E[E\{\eta|\xi\}]=E\eta\tag{23}\]

　　以上回归模型要求能提供条件分布，这对样本点有必定要求，当样本点在每一个变量上都比较随机时，则没法使用。但当预估\(\xi,\eta\)有代参函数关系\(\eta=f(\xi,c_1,\cdots,c_n)\)时，一样能够经过计算\(E[\eta-f]^2\)的极值而获得参数值。好比假设变量有线性关系\(L(x)=ax+b\)，为使函数\(c(a,b)=E[\eta-(a\xi+b)]^2\)达到最值，可令其偏导数为零，最终便能获得式（24）（请自行计算）。

\[L(x)=\rho\dfrac{\sigma_2}{\sigma_1}(x-\mu_1)+\mu_2\tag{24}\]

　　\(L(\xi)\)称为\(\eta\)关于\(\xi\)的线性回归，式中的每一个参数均可以由样本点估算得来，对样本点的采集没有特殊的要求。容易算得\(\eta-L(\xi)\)的方差是\(\sigma_2^2(1-\rho^2)\)，这再次说明了\(\rho\)是随机变量线性关系的度量。咱们还能够说，\(L(\xi)\)已经提取了\(\eta\)关于\(\xi\)的全部线性关系，即\(\eta-L(\xi)\)与\(\xi\)是不相关的（自行验证），该结论被称为均值-方差理论。有没有发现这里有最小二乘法的影子？它们本质是相通的。

3. 特征函数

3.1 母函数

　　虽然分布函数给出了几率分布的统一形式，但不少分布函数并无良好的分析性质，这也使得它的应用很是受限。咱们急须要一种新的函数，它既能完整表达整个几率分布，又具备十分良好的分析性质。对非负离散随机变量，咱们不难想到数列的母函数，由几率分布的规范性知，式（25）在\(|s|\leqslant 1\)上一致且绝对收敛。

\[P(s)=\sum_{k=0}^{\infty}p_ks^k=Es^{\xi}\tag{25}\]

　　母函数有着很是好的分析性质，尤为一些常见分布的母函数也很简洁，这为处理问题提供了方便，甚至能够用母函数取代几率分布。一个颇有用的结论是式（26），利用它们能够方便地计算指望和方差。

\(\xi\)	\(b(k;n,p)\)	\(g(k;p)\)	\(b(k;\lambda)\)
\(P(s)\)	\((ps+q)^n\)	\(\dfrac{ps}{1-qs}\)	\(e^{\lambda(s-1)}\)

\[E\xi=P'(1);\;\;D\xi=P''(1)+P'(1)-[P'(1)]^2\tag{26}\]

　　按照惯例，引入一个新特征，总要考察一下变量函数的特征。在这里不难证实，对独立随机变量\(\xi,\eta\)，设它们的母函数为\(A(s),B(s)\)，则\(\xi+\eta\)的母函数为\(A(s)B(s)\)。特别地，\(n\)个独立同分布随机变量和的母函数是\(P^n(s)\)，这对咱们在“常见分布”那篇中提到的分布颇有用。

　　最后再来看个问题，对于独立同步变量\(\xi_i\)，计算\(\zeta=\xi_1+\xi_2+\cdots+\xi_{\eta}\)，其中\(\eta\)也是随机变量。设\(\xi_i,\eta\)相互独立且母函数分别为\(F(s),G(s)\)。不难证实（从略），\(\zeta\)的母函数为\(G[F(s)]\)，并进而求得\(E\zeta=E\xi\cdot E\eta\)。

　　• 掷5颗筛子，求和为\(15\)的几率；

　　• 蚕的产卵数服从泊松分布，每一个卵成虫律为\(p\)，求成虫数的分布。

3.2 特征函数

　　母函数虽然好用，但它只能运用在离散随机变量，对于连续随机变量或更通常的状况，有没有相似的工具呢？若是你学过傅里叶分析，应当知道傅里叶变换就是母函数思想的升级版本，为此咱们把式（27）称为随机变量\(\xi\)的特征函数。对离散状况它就是母函数\(P(e^{it})\)，连续状况则是密度函数的傅里叶变换形式。关于傅里叶变换，我目前还知之甚少，故很少作阐述。

\[f_{\xi}(t)=Ee^{it\xi}=\int_{-\infty}^{\infty}e^{itx}\,\text{d}F_\xi(x)\tag{27}\]

　　和母函数同样，对独立随机变量\(\xi_i\)，它们和的特征函数知足式（28）。离散变量的特征函数能够直接由母函数修改获得，这里仅列出指数分布的特征函数（式（29）），埃尔朗分布的特征函数天然也就出来了。

\[f_{\xi_1+\xi_2+\cdots+\xi_n}(t)=f_{\xi_1}(t)f_{\xi_2}(t)\cdots f_{\xi_n}(t)\tag{28}\]

\[\xi\sim \lambda e^{-\lambda x}\;\Rightarrow\;f_{\xi}(x)=\left(1-\dfrac{it}{\lambda}\right)^{-1}\tag{29}\]

　　仔细观察式（28），特征函数中的幂函数将加法变成乘法，但不少变量的特征函数仍保持着幂函数成分，乘法此时还能变成加法。具体来讲，若是含参分布\(F(k)\)的特征函数有形式\(X^k\)，那么对于独立同分布\(\xi_1,\xi_2\)有式（30）成立，它被称为特征函数的再生性。知足这个特色的分布函数比较多，好比二项分布、帕斯卡分布、泊松分布、埃尔朗分布等。

\[\xi\sim F(x;k),\;f_{\xi}=X^k\;\Rightarrow\;(\xi_1+\xi_2)\sim F(x;k_1+k_2)\tag{30}\]

　　对于随机向量\(\overrightarrow{\xi}=(\xi_1,\cdots,\xi_n)\)，一样能够定义特征函数（31）。由这个式子不可贵到，随即向量子空间的特征函数是将其它维的\(t_i\)取\(0\)获得，好比\((\xi_1,\cdots,\xi_m)\)的特征函数为\(f(t_1,\cdots,t_m,0,\cdots,0)\)。还能够知道，\(\xi_i\)相互独立的充要条件是\(f(t_1,\cdots,t_n)=\prod f_{\xi_i}(t_i)\)。

\[f_{\overrightarrow{\xi}}(t_1,\cdots,t_n)=\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}e^{i(t_1x_1+\cdots+t_nx_n)}\,\text{d}F_{\overrightarrow{\xi}}(\overrightarrow{x})\tag{31}\]

　　随机变量还有一个很是重要的度量方法，就是考察其“不肯定性”的程度、或者包含的“信息量”。可想而知，这个量与指望、方差都没有关系，它只关乎“随机程度”。这个概念叫“熵”，它是一个很是有趣且丰富的课题，属于几率论的一个应用分支。缺乏“熵”的概念并不影响几率论自己，故这里不做介绍，之后会在《信息论》中展开讨论。