网站排名算法——Reddit 排名算法工做原理



Reddit是个社交新闻站点,其口号是“提早于新闻发生,来自互联网的声音”。用户(也叫redditors)可以浏览而且能够提交互联网上内容的连接或发布本身的原创帖子。其余的用户可对发布的连接进行高分或低分的投票,得分突出的连接会被放到首页。另外,用户可对发布的连接进行评论以及回复其余评论者。

本文将跟你们探讨一下 Reddit的文章排名算法和评论排名算法的工做原理。Reddit使用的算法也是很简单,容易理解和实现。这篇文章里我将会对其进行深刻分析。

首先咱们关注的是文章排名算法。第二部分将重点介绍评论排名算法,Reddit的评论排名跟文章排名使用的不是同一种算法(这点跟 Hacker News不同),Reddit的评论排名算法很是有趣,它是由 xkcd的做者Randall Munroe发明的。

深刻研究文章排名算法代码

Reddit的源代码是开源的,你能够下载它的任意代码。它是用Python写成的,代码放在 这里。里面的排名算法部分是用 Pyrex实现的,这是一种开发Python的C语言扩展的编程语言。这里用Pyrex主要是出于速度的考虑。我用纯Python重写了他们的 Pyrex实现,这样更容易阅读。

Reddit缺省的排名是“热门”排名,实现代码以下:

Python代码 复制代码
  1. #Rewritten code from /r2/r2/lib/db/_sorts.pyx   
  2.   
  3. from datetime import datetime, timedelta   
  4. from math import log   
  5.   
  6. epoch = datetime(197011)   
  7.   
  8. def epoch_seconds(date):   
  9.     """Returns the number of seconds from the epoch to date."""  
  10.     td = date - epoch   
  11.     return td.days * 86400 + td.seconds + (float(td.microseconds) / 1000000)   
  12.   
  13. def score(ups, downs):   
  14.     return ups - downs   
  15.   
  16. def hot(ups, downs, date):   
  17.     """The hot formula. Should match the equivalent function in postgres."""  
  18.     s = score(ups, downs)   
  19.     order = log(max(abs(s), 1), 10)   
  20.     sign = 1 if s > 0 else -1 if s < 0 else 0  
  21.     seconds = epoch_seconds(date) - 1134028003  
  22. return round(order + sign * seconds / 450007)  
#Rewritten code from /r2/r2/lib/db/_sorts.pyx

from datetime import datetime, timedelta
from math import log

epoch = datetime(1970, 1, 1)

def epoch_seconds(date):
    """Returns the number of seconds from the epoch to date."""
    td = date - epoch
    return td.days * 86400 + td.seconds + (float(td.microseconds) / 1000000)

def score(ups, downs):
    return ups - downs

def hot(ups, downs, date):
    """The hot formula. Should match the equivalent function in postgres."""
    s = score(ups, downs)
    order = log(max(abs(s), 1), 10)
    sign = 1 if s > 0 else -1 if s < 0 else 0
    seconds = epoch_seconds(date) - 1134028003
return round(order + sign * seconds / 45000, 7)


这个“热门“排名算法用数学公式表达是下面这个样子(我从 SEOmoz找到了它,但我怀疑他们未必是原做者):



文章提交时间对排名的影响

文章提交时间对排名的影响能够总结为如下几点:

  • 提交时间对排名影响巨大,越新的文章排名会越高
  • 文章排名得分不会随时间的流逝而下降,但新文章会比老文章得到更高的分。这跟Hacker News的排名算法有很大区别,它的得分会随时间流逝而下降。
下面是一个图片,表现的是具备相同支持和反对的票数,但时间不一样的文章的排名得分状况:



对数增强

Reddit在‘热门’排名中使用了对数函数来强化前几票的分量。基本是这个原理:

  • 前10个同意票的分量和后面100个的分量,以及再后面1000票的分量是相同的,以此类推
下面是效果图:



若是不使用对数增强,则分数会是这样:



反对票对排名的影响

Reddit是少数几个能投反对票的网站之一。就像你从代码里看到的,一篇文章的的’得分‘定义以下:

  • up_votes – down_votes
这就是说,咱们能够把它表现为下图:



这种计算方式会对既有很的同意票,又有不少反对票的文章(好比颇有争议的文章)带来重大影响,它们可能会比那些只有不多同意票的文章得到更低的分数。这也就说明了为何小猫小狗之类的帖子(以及其它无争议的文章)会得到如此高的评分。

对Reddit文章排名算法的总结

  • 提交时间是一项很是重要的指标,新文章比老文章得分更高
  • 头10个同意票的分量和后100个的分量相同。得到10个同意票和得到50个同意票的排名很接近
  • 具备相近同意票和反对票数的有争议文章会比只得到同意票的排名低。
Reddit评论排名算法工做原理

xkcd网站的 Randall Munroe是Reddit网站上的‘最佳文章’排名算法的发明者。他写了一篇很好的文章来解释它。

你应该读一读这篇文章,它以很通俗的语言解释了这个算法。这篇的文章的重点是:

  • ‘热门‘排名算法对评论进行排名不是颇有效,它会显得对早期的评论过于偏心。
  • 在一个评论系统中,咱们的目的是找出最佳评论,不论它是什么时间提交的。
  • 1927年Edwin B. Wilson找到了一种很好的算法,被叫作”Wilson score interval”,它能够被用于“信任排序(the confidence sort)”
  • 信任排序把文章的得到的票数看成全体读者的一个抽样统计——就像一次民意测验。
  • 《How Not To Sort By Average Rating》这篇文章对这种信任评级算法作了详细的解释,绝对值得一读!
深刻分析评论排序代码

Reddit里的信任排序算法是在 _sorts.pyx这个文件里实现的,我用纯Python重写了它们的Pyrex实现(同时去掉了其中的缓存优化代码):

Python代码 复制代码
  1. #Rewritten code from /r2/r2/lib/db/_sorts.pyx   
  2.   
  3. from math import sqrt   
  4.   
  5. def _confidence(ups, downs):   
  6.     n = ups + downs   
  7.   
  8.     if n == 0:   
  9.         return 0  
  10.   
  11.     z = 1.0 #1.0 = 85%, 1.6 = 95%   
  12.     phat = float(ups) / n   
  13.     return sqrt(phat+z*z/(2*n)-z*((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n)   
  14.   
  15. def confidence(ups, downs):   
  16.     if ups + downs == 0:   
  17.         return 0  
  18.     else:   
  19.         return _confidence(ups, downs)  
#Rewritten code from /r2/r2/lib/db/_sorts.pyx

from math import sqrt

def _confidence(ups, downs):
    n = ups + downs

    if n == 0:
        return 0

    z = 1.0 #1.0 = 85%, 1.6 = 95%
    phat = float(ups) / n
    return sqrt(phat+z*z/(2*n)-z*((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n)

def confidence(ups, downs):
    if ups + downs == 0:
        return 0
    else:
        return _confidence(ups, downs)


信任排序使用 Wilson score interval算法,它的数学表达式是这样的:



在上面的公式中,各个参数的定义以下:

  • p是支持票的百分比
  • n总票数
  • zα/2是正态分布(1-α/2)分位数
咱们对上面的介绍作一些总结:

  • 信任排序是把票数看做一次全体读者的抽样调查
  • 信任排序会给一条评论一个临时评级,认为它有85%的可信度
  • 票数越多,可信度越高
  • Wilson’s interval算法能很好的处理票数不多和低端几率状况
Randall在 他的文章里对信任排序的工做原理给了一个很好的例子:

若是一条评论只有一个同意票和0个反对票,它有100%的支持率,但由于投票数太少,系统将会把它放在排名底部。但若是它有10个同意票,而其只有1个反对票,那系统将会把它放到比具备40个同意票和20个反对票的评论更高的排名上——能够推断出,当这个评论得到40个同意票时,它极有可能得到的反对票会少于20。这种算法最好的部分是,若是推断错了,那它会很快的得到更多的数据来证实,由于它已经被排到了顶部。

发表时间对排名的影响:没有!

信任排序一个优势是评论发表时间是不产生影响做用的(这跟‘热门排序’和Hacker News的排名算法是不同的)。评论是经过信任评级,经过数据取样计算,一条评论得到的票数越多,它能得到的评级越接近他的真实的得分。

图表视图

让咱们把信任排序作成图表,看一看它是如何影响评论排序的。咱们使用Randall的例子:



能够看到,信任排序并不在乎一条评论得到了多少票数,它关注的是它的支持率和数据采样规模!

排序以外的应用

正像 Evan Miller所说的,Wilson’s score interval算法能够在非排名应用里使用,他列举了3个例子:

  • 检查垃圾信息:看过这条信息的人中有多大比例认为它是垃圾信息?
  • 制做“最优”排名:看过这条信息的人中有多大比例认为它是“最好的….”?
  • 制做“邮件转发”排名:看过条信息这的人中有多大比例点击了‘Email’按钮?
使用这个算法你只须要两个数据:

  • 取样总数
  • 支持数
这个算法是如此有效,但很奇怪不少的网站现在仍然是最原始的评级方法,这包括著名的 亚马逊,它仍然使用“得分 = 支持票 / 总票数”。

英文原文: How Reddit ranking algorithms work / 译: 外刊IT评论