传统机器学习对于几率论的使用可谓是无所不用其及。机器学习
全几率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
贝叶斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
贝叶斯公式是贝叶斯统计学的核心利器。贝叶斯派认为事件发生的几率不像频率派那样单纯,而是应该加入人类的先验,使得实验结果不至于误差太大。换句话说,贝叶斯派认为参数的取值也符合必定的几率分布,不是单纯的从观测推测。函数
$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指数分布无记忆性指的是$t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$学习
$P(X=x)=\phi^x(1-\phi)^{1-x},X非0即1$优化
当缺少先验知识时,选用高斯准没错。由中心极限定理可知,独立同分布的变量相加符合高斯分布。另外,在具备相同方差的全部可能的几率分布中,高斯分布是对模型加入先验知识最少的分布。
若$X\sim N(\mu,\sigma^2),Y=aX+b,则Y\sim N(a\mu+b,a^2\sigma^2)$事件
$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而几率密度函数$f(x,y)=f_X(x)\cdot f_Y(y)$,等价地,几乎到处成立it
拉普拉斯分布容许在μ处设置峰值,是离散变量分布。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克分布对应于连续随机变量,在X=μ处无限高$P(X)=\delta(X-x^{(i)})$,对于经验分布,使用狄雷克分布能够将频率变为几率,这样在训练集上似然是最大的。
其余,对于任意平滑的几率密度函数,均可以用高斯分布近似。变量
频率依几率收敛于P,背过也就理解了$\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$ftp
n个独立同分布的随机变量指望为μ;或者说当n足够大时,随机变量之和的指望依几率收敛于μ。若是想估计X的指望,只须要从X分布中取足够多的点,平均值依几率收敛于μ。lambda
独立同分布的随机变量之和近似于正态分布im
$$P(X^{(1)},X^{(2)},...,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},...,X^{(i-1)})$$
统计量就是样本的不含未知参数的函数,知道了样本,统计量也就肯定了
抽样分布就是统计量的分布,常见的抽样分布有:
若是整体分布$X\sim N(\mu,\sigma^2),X_1,X_2,...,X_n$是样本,那么
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$
$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$
$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由上面也能够看出,标准差=$\dfrac{\sigma}{\sqrt{n}}$,以小于样本数量线性的速度降低,好比梯度降低中,梯度的估计的标准差以小于样本数量线性的速度降低,收益的增速随数量增大逐渐降低,所以GD的批量太大可能代价和收益并非正比
对于参数的估计,咱们每每但愿找到参数的一个合理且优秀的值就足够了,而不是找到参数的几率分布。这里的参数,能够是事件发生的几率,能够是函数的实际参数等等。
点估计有两种,矩估计和极大似然估计,矩估计就是样本矩代替整体矩估计,来推出参数。而极大似然估计在统计学习中真是太太太经常使用了,它属于频率派的思想,简单的经过样原本求解参数,而不加入任何先验。
极大似然估计MLE思想很简单:$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$,为了计算方便,使用log将连乘转换为加法$\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$,后面会专门写一篇介绍极大似然估计
前面不是说了参数估计嘛,参数估计出来总要有个评价标准看你评价的好很差,那参数的评价标准一共有四条:
好比,由有效性:$\hat{\theta}_k=\dfrac{1}{k}(X_1+...+X_k)$做为估计参数,则$D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$,当k增长时,D降低,因此由有效性,当样本越多时,参数估计越有效
再好比,由均方偏差准则可知,当n很小时,$S^2优于二阶矩B^2$,当n上升时,两者无差异
$$I(x)=-logP(x)$$
$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$
$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$
$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中,P为真实分布,Q为预测分布
$softplus:log(1+e^x)$:激活函数的一种,在后面会看到它是Relu的平滑版本,但效果通常