这涉及到数学的几率问题。函数
伯努利分布,就是0-1分布(好比一次抛硬币,正面朝上几率)spa
那么一次抛硬币的几率分布以下:3d
假设训练数据以下:blog
那么根据最大似然估计(MLE),咱们要求u:数学
求值推导过程以下:it
因此能够求出:变量
以上的推导过程就是极大似然估计,咱们能够看出u就是样本出现的频率除以总共抛硬币的实验次数。可是极大似然估计有它的局限性,当训练样本比较小的时候会致使Overfitting问题,好比说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的取值就应该是8/10(这符号频率派的观点)。如何解决这个问题呢?im
那么这时候就须要从贝叶斯理论出发,贝叶斯理论认为,u并非一个固定的值,u是一样服从某个分布,所以咱们假设u有个先验分布P(u)。d3
可是如何选取这个先验分布p(u)呢?数据
咱们知道
所以咱们但愿先验分布也能够有相似的几率分布,为何这么说呢?由于后验几率=先验几率*似然函数,因此若是选择的先验分布和似然函数有同样的结构,那么获得的后验几率也会存在类似的结构,这样会使得咱们后面的计算简便。
共轭性:θ的后验分布p(θ|x)与先验分布P(θ)属于同一分布,那么称两者为共轭分布。
所以咱们假设u的先验分布也为
那么这时候数学里面有个分布叫作Beta分布:
那么假设咱们投硬币,m次正面,l次反面。总共是m+l=N次实验:
那么这时候u的分布为:
依旧和先验分布服从同样的分布(共轭分布)
假设咱们要预测下一次的实验结果,也就是给定D获得下一次的预测分布:
咱们能够发现当m,N无限变大的时候,这种估计近似等于极大似然估计。
不少时候,变元的不止只有两个,还有多元,其实估计过程是相似的。 假设有k维向量,其中某个向量Xk=1,其余等于0。
例如某个变量x2发生,则X2=1,x=(0,1,0,0,0,0) 以抛筛子为例子,总共有6个面。
那么xk=1发生的几率为Uk,那么x的分布为:
考虑n个独立观测值{x1,x2,...xn}D,对应的似然函数:
其中mk其实就是这么屡次实验中,uk出现的次数大小。估计极大似然估计,咱们会得出:
同理,为了不数据量小致使的过拟合问题,咱们对Uk也假设一个先验分布:
考虑到对于多元变量的分布u:
所以咱们选择它的共轭分布狄利克雷分布为先验分布:
那么后验分布=似然分布*先验分布:
依旧和先验分布服从同样的分布(共轭分布)
假设咱们要预测下一次的实验结果,也就是给定D获得下一次的预测分布:
又由于对于狄利克雷分布:
因此对于某个类的分布预测为: