打分排序系统漫谈3 - 贝叶斯更新/平均

时间 2019-12-04

标签打分排序系统漫谈贝叶更新平均繁體版

原文原文链接

打分排序系统漫谈3 - 贝叶斯更新/平均

标签（空格分隔）：博客园统计打分系统待完成html

上一节咱们聊了聊用Wilson区间估计来处理小样本估计，但从原理上来讲这种方法更像是一种Trick，它没有从本质上解决样本量小的时候估计不置信的问题，而是给估计加上一个和样本量相关的置信下界，而后用这个下界替代估计进行打分。函数

想要从本质上解决小样本估计不置信的问题，一个更符合思惟逻辑的方法是咱们先基于经验给出一个预期估计，而后不断用收集到的样原本对咱们的预期进行更新，这样在样本量小的时候，样本不会对咱们的预期有较大影响，估计值会近似于咱们预先设定的经验值，从而避免像小样本估计不置信的问题。网站

假设$\theta$是咱们要给出的估计，x是咱们收集的数据, $\pi(\theta)$是咱们基于经验给出的预期。贝叶斯表达式以下：spa

\[ \begin{align} p(\theta|x) \propto p(x|\theta) * \pi(\theta) \end{align} \]htm

原理看似简单，但落实到实际应用就会出现几个问题：blog

如何把实际问题抽象成几率分布 $p(x|\theta)$
如何设置预期几率分布 $\pi(\theta)$
如何用新样本对分布进行更新获得参数估计

让咱们继续用以前点赞的例子，一个一个解答上面的问题排序

二元贝叶斯更新

样本分布抽象 $p(x|\theta)$
咱们上一章已经讨论如何对用户的点赞拍砖行为进行抽象。简单来讲每个用户是否点赞$\sim Bernoulli(p)$，用户间相互独立，因此N个用户对某一篇文章点赞量$\sim Binomial(n,p) = \left(\! \begin{array}{c} n \\ k \end{array} \! \right)p^k(1-p)^{(n-k)}$
抽象出了样本的几率分布,，咱们要如何用这些样本对咱们想要估计的参数p（点赞率）进行更新呢？ip
预期分布抽象- 共轭分布$\pi(\theta)$
这就涉及到另外一个概念- 共轭先验分布。名字很是高大上难以记住（刚刚wiki过才找到对应的中文...)。简单解释若是你的先验分布和后验分布一致，它们就分别是共轭先验和共轭后验。这个性质之因此如此吸引人就在于，能够持续用新样本更新先验分布。由于若是分布不变 $p(\theta|x_i) \propto p(x_i|\theta) * \pi(\theta)$就能够一直连着乘下去$x_i ， i \in （1,2,..N）$
有这种性质的分布有几种，而适用于二项分布的就是Beta分布。把先验分布设为beta分布，不断用二项分布的样本数据去更新先验分布，后验分布仍是beta分布。get

记忆卡片～Beta分布
Beta函数: $Beta(a,b) = \frac{(a-1)!(b-1)!}{(a+b-1)!}$
Beta分布几率密度 $f(x;a,b) = x^{(a-1)}(1-x)^{(b-1)}/Beta(a,b)$
Beta分布统计值：$\mu = \frac{a}{a+b}$博客
分布更新-贝叶斯更新
看到Beta分布的几率密度很容易联想到二项分布，由于它们十分类似。和二项分布对比x就是咱们要估计的参数p，Beta分布的两个参数a,b分别对应正负样本数量k,n-k。换言之Beta分布是二项分布参数的分布。
下一步咱们就须要用到Beta分布做为共轭分布的性质（先验后验分布不变）来对参数进行更新：
\[ \begin{align} \pi(p|\alpha+k, \beta+n-k) &= P(X=k|p, n) * \pi(p|\alpha, \beta)\\ E(\hat{p}) &= \frac{\alpha + k}{\alpha + \beta + n} \leftarrow \frac{\alpha}{\alpha + \beta} \\ where & \quad \pi(\alpha, \beta) \sim Beta(\alpha, \beta) \\ & \quad x \sim Binomial(n,p) \end{align} \]
若是咱们预期点赞和拍砖的几率是50%/50%，既$\alpha=\beta$。当咱们对预期不是很是确定的时候（对用户行为更相信），咱们的$\alpha,\beta$能够给的相对比较小，这样样本会很快修正先验几率，反之$\alpha,\beta$给更大值。这里$\alpha,\beta$能够理解为咱们根据预期设定的虚拟样本，下面是一个直观的例子：
$\alpha =2, \beta = 2,\hat{p}=0.5$, 当收集到1个点赞样本，更新后的参数变为,$\alpha = 3, \beta=2, \hat{p} \to 0.67 $
$\alpha =10, \beta = 10， \hat{p}=0.5$, 当收集到1个点赞样本更新后的参数变为,$\alpha = 11, \beta=10, \hat{p} \to 0.52 $
一个更直观的$\alpha, \beta$取值变化对参数p分布的影响以下图：

$\alpha, \beta$越大方差越小，p的分布越集中
$\alpha$增长，p估计均值越大
$\beta$增长，p估计均值越小
抛开数学的部分，用贝叶斯更新的方法来估计用户评分能够很是简单的用下面的表达式来表示，其中$\alpha$是预设的点赞量， $\beta$是预设的拍砖量， n是收集到的所有样本量，其中k是收集到的样本中点赞的数量。
\[ \hat{p} = \frac{\alpha + k}{\alpha + \beta + n} \]
如何设定$\alpha \beta$决定了最终打分从哪里开始更新，以及最终打分对新样本的敏感程度。

多元贝叶斯更新

上述咱们对用户的行为作了一个最简单的抽象，只包括点赞和拍砖两种行为。现实状况每每更复杂，好比用户打分（五星评分），这种状况咱们应该如何使用贝叶斯来获得更加稳健的分数估计呢？

让咱们对照着上面二项分布的思路来梳理一下

样本分布抽象 $p(x|\theta)$
假设用户的评分从1分-5分，用户最终打了3分，则能够抽象成一个有5种可能的多项分布，用户的选择用向量表示就是 $(0,0,1,0,0)$ 。多项分布的表达式以下
\[ \begin{align} P(x|\theta) &= \begin{pmatrix} N \\ x_1,...,x_5 \\ \end{pmatrix} \prod_{i=1}^5 \theta_i^{x_i} \\ score &= \sum_{i=1}^5 p_i * i \end{align} \]
其中N是用户量，$x_i$是选择打i分的用户数，知足$\sum_{i=1}^5 x_i = N $, $\theta_i$是打i分的几率，知足 $\sum_{i=1}^5 \theta_i = 1$
咱们经过收集到的用户打分来给出打1分-5分的几率，最终用多项分布的指望做为最终打分。
共轭先验
和二项分布同样，如今咱们须要找到多项分布的共轭先验分布 - Dirchlet分布，也就是beta分布推广到多项。Dirchlet的分布几率密度以下：
\[ Dir(\theta|\alpha) = \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)...\Gamma(\alpha_K)} \prod_{k=1}^K \theta^{\alpha_k-1} \]
其中$\alpha_0 = \sum_i^K \alpha_k$，当K=2的时候Dirchlet就是beta分布。和Beta分布相同，其中$\alpha_i$能够理解为对打分为i的预期先验。
贝叶斯更新
肯定了先验分布和后验分布，咱们用和beta相同的方法用收集到的样本对参数进行更新。
\[ \begin{align} Dir(\theta|D) &\propto P(D|\theta) * Dir(\theta|\alpha)\\ Dir(\theta|D) &= \frac{\Gamma(\alpha_0 + N)}{\Gamma(\alpha_1 + m_1)...\Gamma(\alpha_K + m_k)} \prod_{k=1}^K \theta^{\alpha_k + m_k-1}\\ \end{align} \]
上述的条件几率能够被简单理解为，当咱们收集到N个样本其中$m_i$个样本打了i分，则打i分的几率会从预置的先验几率$\frac{\alpha_i}{\sum_i^k\alpha_i}$被更新为 $\frac{\alpha_i + m_i}{\sum_i^k\alpha_i + N }$
有了后验几率，咱们就能够获得最终打分以下
\[ \frac{\sum_{i=1}^K i * (\alpha_i + m_i)}{\sum_i^k\alpha_i + N } \]
贝叶斯平均
针对小样本打分一种很经常使用的方法叫作贝叶斯平均，许多电影网站的打分方法都来源它。让咱们先写一下表达式：
\[ x = \frac{C*m + \sum_{i=1}^K{x_i}}{C+N} \]
其中C是预置样本量（给小样本加一些先验样本）， N是收集的样本量，m是先验的整体平均打分，$x_i$是每一个用户的打分。贝叶斯平都可以简单理解为用总体的先验平均打分来对样本估计进行平滑。
但其实让咱们对上述基于Dirchlet分布给出的打分式进行一下变形 $\sum_{i=1}^K i * \alpha_i = C *m $， $\sum_{i=1}^K i * m_i = \sum_{i=1}^K x_i$, 会发现两种计算方式是彻底一致的！！

针对打分咱们分别讨论了时间衰减，以及两种解决小样本估计不置信的方法。但这只是打分系统很小的一部分，还有一块颇有趣的是如何基于偏好调整最终的打分。之后有机会再聊吧

To be continue

Reference