分布问题（二元，多元变量分布，Beta，Dir）

时间 2019-12-09

标签分布问题二元 2元多元变量 beta dir 繁體版

原文原文链接

这涉及到数学的几率问题。函数

二元变量分布：

伯努利分布，就是0-1分布(好比一次抛硬币，正面朝上几率)spa

那么一次抛硬币的几率分布以下：3d

假设训练数据以下：blog

那么根据最大似然估计（MLE）,咱们要求u：数学

求值推导过程以下：it

因此能够求出：变量

以上的推导过程就是极大似然估计，咱们能够看出u就是样本出现的频率除以总共抛硬币的实验次数。可是极大似然估计有它的局限性，当训练样本比较小的时候会致使Overfitting问题，好比说抛了10次硬币，有8次朝上，那么根据极大似然估计，u的取值就应该是8/10（这符号频率派的观点）。如何解决这个问题呢？im

那么这时候就须要从贝叶斯理论出发，贝叶斯理论认为，u并非一个固定的值，u是一样服从某个分布，所以咱们假设u有个先验分布P(u)。d3

可是如何选取这个先验分布p（u）呢？数据

咱们知道

所以咱们但愿先验分布也能够有相似的几率分布，为何这么说呢？由于后验几率=先验几率*似然函数，因此若是选择的先验分布和似然函数有同样的结构，那么获得的后验几率也会存在类似的结构，这样会使得咱们后面的计算简便。

共轭性：θ的后验分布p(θ|x)与先验分布P（θ）属于同一分布，那么称两者为共轭分布。

所以咱们假设u的先验分布也为

那么这时候数学里面有个分布叫作Beta分布：

那么假设咱们投硬币，m次正面，l次反面。总共是m+l=N次实验：

那么这时候u的分布为：

依旧和先验分布服从同样的分布（共轭分布）

假设咱们要预测下一次的实验结果，也就是给定D获得下一次的预测分布：

咱们能够发现当m，N无限变大的时候，这种估计近似等于极大似然估计。

多元变量分布：

不少时候，变元的不止只有两个，还有多元，其实估计过程是相似的。假设有k维向量，其中某个向量Xk=1,_{^{其余等于0。}}

例如某个变量x₂发生，则X₂=1，x=(0,1,0,0,0,0) 以抛筛子为例子，总共有6个面。

那么x_k=1发生的几率为U_k,那么x的分布为：

考虑n个独立观测值{x1,x2,...xn}D，对应的似然函数：

其中mk其实就是这么屡次实验中，uk出现的次数大小。估计极大似然估计，咱们会得出：

同理，为了不数据量小致使的过拟合问题，咱们对Uk也假设一个先验分布：

考虑到对于多元变量的分布u：

所以咱们选择它的共轭分布狄利克雷分布为先验分布：

那么后验分布=似然分布*先验分布：

依旧和先验分布服从同样的分布（共轭分布）

假设咱们要预测下一次的实验结果，也就是给定D获得下一次的预测分布：

又由于对于狄利克雷分布：

因此对于某个类的分布预测为：