推荐系统开源软件

时间 2019-12-01

标签推荐系统开源软件繁體版

原文原文链接

如下内容是转至盛大创新研究院官方博客的一篇文章http://in.sdo.com/?p=1707，文中几乎涵盖了当今主流的推荐系统开源软件，我把全文都贴过来了，不过与原文不一样的是我把有些已经中止更新/或者更新很慢的都日后面排了。另外也写写本身的一些使用总结。

原文开始：

收集和整理了目前互联网上能找到的开源推荐系统，并附上了我的的一些简单点评（未必全面准确），这个列表是目前为止比较全面的了，但愿对你们了解掌握推荐系统有帮助（文/陈运文）

SVDFeature

由上海交大的同窗开发，采用C++语言，代码质量很高。去年咱们参加KDD竞赛时用过，很好很方便，并且出自我们国人之手，因此置顶推荐！

项目地址：

http://svdfeature.apexlab.org/wiki/Main_Page

SVDFeature包含一个很灵活的Matrix Factorization推荐框架，能方便的实现SVD、SVD++等方法, 是单模型推荐算法中精度最高的一种。SVDFeature代码精炼，能够用相对较少的内存实现较大规模的单机版矩阵分解运算。

另外含有Logistic regression的model，能够很方便的用来进行ensemble运算

备注：这个真是单机版推荐神器，能在4G的电脑上，跑1.5G的用户-物品评分数据，并且速度也还能够，当时给我吃了一惊。该项目文档至关齐全包含：理论和样例的demo，把评分预测当作矩阵分解、分类、Ranking来作。正如项目介绍，它提供了特征-矩阵分解的框架，你只需腾出双手，结合业务场景去提取用户的特征。若是用来参加推荐/机器学习方面的比赛，其中的GBRT跟逻辑回归的各类模型集成，更是加了一层保证。总而言之，它就是你的欧莱雅，你值得拥有！

Mahout

网址

http://mahout.apache.org/

Mahout知名度很高，它是Apache基金资助的重要项目，在国内流传很广，并已经有一些中文相关书籍了。注意Mahout是一个分布式机器学习算法的集合，协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现（Hadoop-based，另有pure Java版本），Mahout里还有其余常见的机器学习算法的分布式实现方案。

另外Mahout的做者之一Sean Owen基于Mahout开发了一个试验性质的推荐系统，称为Myrrix, 能够看这里：

http://myrrix.com/quick-start/javascript

备注：也许受到到graphlab跟PredictOI等大数据预测软件的压力，最近Mahout也加快了更新速度，截止如今已经到了V0.9了。这个库最大的优点是能处理大的数据量，里面不只有推荐还有分类，回归，主题模型等，具体作推荐的时候还能够结合业务修改下类似度计算公式

MyMediaLite

http://mymedialite.net/index.html

基于.NET框架的C#开发（也有Java版本），做者基原本自德国、英国等欧洲的一些高校。

除了提供了常见场景的推荐算法，MyMediaLite也有Social Matrix Factorization这样独特的功能

尽管是.Net框架，但也提供了Python、Ruby等脚本语言的调用API

MyMediaLite的做者之一Lars Schmidt在2012年KDD会议上专门介绍过他们系统的一些状况，惋惜因为.Net开发框架日渐式微，MyMediaLite对Windows NT Server的系统吸引力大些，LAMP网站用得不多

备注：这个软件也是至关的赞，不只算法完整，文档清晰，还提供指标测试、交叉验证寻参等，须要注意的一点是，当数据量较大的时候，最好要从新编译一下C#的运行库Mono --with-large-heap=yes 把内存搞大一点，否则很容易out of memory。

GraphLab

项目地址：

http://graphlab.org/

Graphlab是基于C++开发的一个高性能分布式graph处理挖掘系统，特色是对迭代的并行计算处理能力强（这方面是hadoop的弱项），

因为功能独到，GraphLab在业界名声很响

用GraphLab来进行大数据量的random walk或graph-based的推荐算法很是有效。

Graphlab虽然名气比较响亮（CMU开发），可是对通常数据量的应用来讲可能还用不上

备注：正如软件的名字同样，该软件专一于图方面的挖掘，不过其中包含一个推荐的toolkit，里面有不少矩阵分解类的算法，另外该软件的另一个兄弟Graphchi，又一大单机神奇。前段新闻，就说Mac mini笔记本部署的grapchi 在推特图谱的计算上超越了1613节点的hadoop。我作的另一个应用就是在一台服务器上部署了Graphchi ，在中等数据量上毫无鸭梨。

LibFM

项目网址：

http://www.libfm.org/

做者是德国Konstanz University的Steffen Rendle，去年KDD Cup竞赛上咱们的老对手，他用LibFM同时玩转Track1和Track2两个子竞赛单元，都取得了很好的成绩，说明LibFM是很是管用的利器（虽然在Track1上被咱们战胜了，hiahia）

顾名思义，LibFM是专门用于矩阵分解的利器，尤为是其中实现了MCMC（Markov Chain Monte Carlo）优化算法，比常见的SGD（随即梯度降低）优化方法精度要高（固然也会慢一些）

顺便八卦下，去年KDD会议上和Steffen当面聊过，他很腼腆并且喜欢偷笑，呵呵挺可爱。

备注：在预测评分方面是神奇，不过相对来说速度较慢，尤为用MCMC算法的时候，不过总的来讲仍是很是好的一款软件

LibMF

项目地址：

http://www.csie.ntu.edu.tw/~cjlin/libmf/

注意LibMF和上面的LibFM是两个不一样的开源项目。这个LibMF的做者是大名鼎鼎的台湾国立大学，他们在机器学习领域颇负盛名，近年连续多届KDD Cup竞赛上均得到优异成绩，并曾连续多年得到冠军。台湾大学的风格很是务实，业界经常使用的LibSVM， Liblinear等都是他们开发的，开源代码的效率和质量都很是高

LibMF在矩阵分解的并行化方面做出了很好的贡献，针对SDG优化方法在并行计算中存在的locking problem和memory discontinuity问题，提出了一种矩阵分解的高效算法，根据计算节点的个数来划分评分矩阵block，并分配计算节点。系统介绍能够见这篇论文（Recsys 2013的 Best paper Award）

Y. Zhuang, W.-S. Chin, Y.-C. Juan, and C.-J. Lin. A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems. Proceedings of ACM Recommender Systems 2013.

备注：我相信Libsvm，不少人用过，没错，这个LibMF就是林志仁教授那个团队写的，速度、质量值得信赖