算法工程狮3、数学基础几率论及统计学

时间 2021-02-15

原文原文链接

传统机器学习对于几率论的使用可谓是无所不用其及。机器学习

几率论

1.全几率公式与贝叶斯公式

全几率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
贝叶斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
贝叶斯公式是贝叶斯统计学的核心利器。贝叶斯派认为事件发生的几率不像频率派那样单纯，而是应该加入人类的先验，使得实验结果不至于误差太大。换句话说，贝叶斯派认为参数的取值也符合必定的几率分布，不是单纯的从观测推测。函数

2.随机变量几率分布与几率密度

指数分布

$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指数分布无记忆性指的是$t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$学习

伯努利分布

$P(X=x)=\phi^x(1-\phi)^{1-x}，X非0即1$优化

正态分布

当缺少先验知识时，选用高斯准没错。由中心极限定理可知，独立同分布的变量相加符合高斯分布。另外，在具备相同方差的全部可能的几率分布中，高斯分布是对模型加入先验知识最少的分布。
若$X\sim N(\mu,\sigma^2),Y=aX+b,则Y\sim N(a\mu+b,a^2\sigma^2)$事件

二元随机变量$f(x,y)$

边际几率密度$f_X(x)=\int f(x,y)dy$
条件几率密度$f(y|x)=\dfrac{f(x,y)}{f_X(x)}$
若两个随机变量X和Y相互独立，则几率分布函数

$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而几率密度函数$f(x,y)=f_X(x)\cdot f_Y(y)$,等价地，几乎到处成立it

Laplace分布和Dirac分布

拉普拉斯分布容许在μ处设置峰值，是离散变量分布。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克分布对应于连续随机变量，在X=μ处无限高$P(X)=\delta(X-x^{(i)})$，对于经验分布，使用狄雷克分布能够将频率变为几率，这样在训练集上似然是最大的。
其余，对于任意平滑的几率密度函数，均可以用高斯分布近似。变量

3.指望与方差

若X,Y相互独立，则$E(XY)=E(X)E(Y)$
$D(X)=E(X^2)-[E(X)]^2$
$D(nX)=n^2D(X)$
$D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))]，若X和Y相互独立，则D(X+Y)=D(X)+D(Y)$
协方差就是$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)(Y)$，根据上条，相互独立则协方差为0
相关系数$\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)\cdot D(Y)}}$，相关系数在[-1,1]之间，越大越相关，接近0为不相关

4.大数定律

依几率收敛

频率依几率收敛于P，背过也就理解了$\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$ftp

辛钦大数定律

n个独立同分布的随机变量指望为μ；或者说当n足够大时，随机变量之和的指望依几率收敛于μ。若是想估计X的指望，只须要从X分布中取足够多的点，平均值依几率收敛于μ。lambda

中心极限定理

独立同分布的随机变量之和近似于正态分布im

5.条件几率的链式法则

$$P(X^{(1)},X^{(2)},...,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},...,X^{(i-1)})$$

统计学

1.统计量与抽样分布

统计量就是样本的不含未知参数的函数，知道了样本，统计量也就肯定了
抽样分布就是统计量的分布，常见的抽样分布有：

$\chi^2$分布：$\chi^2=\sum\limits_{i=1}^{n}X_i^2$，称为自由度为n的卡方分布$E(\chi^2)=n,D(X^2)=2n$
t分布：$T=\dfrac{X}{\sqrt{Y/N}},X\sim N(0,1),Y\sim \chi^2(N)$
F分布：$F=\dfrac{X/n_1}{Y/n_2},X,Y\sim \chi^2$

2.整体与样本分布

若是整体分布$X\sim N(\mu,\sigma^2),X_1,X_2,...,X_n$是样本，那么
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$

$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$

$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由上面也能够看出，标准差=$\dfrac{\sigma}{\sqrt{n}}$，以小于样本数量线性的速度降低，好比梯度降低中，梯度的估计的标准差以小于样本数量线性的速度降低，收益的增速随数量增大逐渐降低，所以GD的批量太大可能代价和收益并非正比

3.点估计

对于参数的估计，咱们每每但愿找到参数的一个合理且优秀的值就足够了，而不是找到参数的几率分布。这里的参数，能够是事件发生的几率，能够是函数的实际参数等等。
点估计有两种，矩估计和极大似然估计，矩估计就是样本矩代替整体矩估计，来推出参数。而极大似然估计在统计学习中真是太太太经常使用了，它属于频率派的思想，简单的经过样原本求解参数，而不加入任何先验。
极大似然估计MLE思想很简单：$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$，为了计算方便，使用log将连乘转换为加法$\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$，后面会专门写一篇介绍极大似然估计

4.估计量的评价准则

前面不是说了参数估计嘛，参数估计出来总要有个评价标准看你评价的好很差，那参数的评价标准一共有四条：

无偏性：$E(\hat{\theta})=\theta，则称估计量无偏，当\lim\limits_{n\rightarrow \infin}E(\hat{\theta})=\theta称为渐近无偏估计量，好比：E(\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2)=\sigma^2$
有效性：若是$D(\hat{\theta_1})\leq D(\hat{\theta_2}),则称\hat{\theta_1}比\hat{\theta_2}有效$
均方偏差性：$mse=E(\hat{\theta}-\theta)^2,若是mse(\hat{\theta_1})\leq mse(\hat{\theta_2}),则\hat{\theta_1}在此方面优秀，注意，有时均方偏差性比无偏性更重要$
相合性：若$\hat{\theta}$依几率收敛于$\theta$，则称为相合估计量

好比，由有效性：$\hat{\theta}_k=\dfrac{1}{k}(X_1+...+X_k)$做为估计参数，则$D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$，当k增长时，D降低，因此由有效性，当样本越多时，参数估计越有效
再好比，由均方偏差准则可知，当n很小时，$S^2优于二阶矩B^2$，当n上升时，两者无差异

信息论及其余

1.信息论

自信息：单个事件的不肯定性，越大越不肯定，越混乱，可是信息也越多

$$I(x)=-logP(x)$$

香农熵：分布的不肯定性，上同

$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$

KL散度：衡量两个分布间的差别，越小越类似

$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$

交叉熵：等价于针对Q最小化KL散度，由于P是已知的，因此为了尽可能使分布差别小，因此只优化Q便可

$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中，P为真实分布，Q为预测分布

2.其余

$softplus:log(1+e^x)$：激活函数的一种，在后面会看到它是Relu的平滑版本，但效果通常

算法工程狮3、数学基础 几率论及统计学

几率论