前一阵子准备毕业论文的开题，一直在看推荐系统相关的论文。对推荐系统有了一个更加清晰和理性的认识，也对推荐算法有了深刻了解。借此机会总结分享一下，你们多多拍砖。html

　　随着互联网的发展，人们正处于一个信息爆炸的时代。相比于过去的信息匮乏，面对现阶段海量的信息数据，对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。一个具备良好用户体验的系统，会将海量信息进行筛选、过滤，将用户最关注最感兴趣的信息展示在用户面前。这大大增长了系统工做的效率，也节省了用户筛选信息的时间。git

　　搜索引擎的出如今必定程度上解决了信息筛选问题，但还远远不够。搜索引擎须要用户主动提供关键词来对海量信息进行筛选。当用户没法准确描述本身的需求时，搜索引擎的筛选效果将大打折扣，而用户将本身的需求和意图转化成关键词的过程自己就是一个并不轻松的过程。github

　　在此背景下，推荐系统出现了，推荐系统的任务就是解决上述的问题，联系用户和信息，一方面帮助用户发现对本身有价值的信息，另外一方面让信息可以展示在对他感兴趣的人群中，从而实现信息提供商与用户的共赢。web

　　这是最为简单的一种推荐算法，它只是简单的根据系统用户的基本信息发现用户的相关程度，而后将类似用户喜好的其余物品推荐给当前用户。api

　　系统首先会根据用户的属性建模，好比用户的年龄，性别，兴趣等信息。根据这些特征计算用户间的类似度。好比系统经过计算发现用户A和C比较类似。就会把A喜欢的物品推荐给C。网络

　　b 不依赖于物品的属性，所以其余领域的问题均可无缝接入。

　　与上面的方法相相似，只不过此次的中心转到了物品自己。使用物品自己的类似度而不是用户的类似度。

　　系统首先对物品（图中举电影的例子）的属性进行建模，图中用类型做为属性。在实际应用中，只根据类型显然过于粗糙，还须要考虑演员，导演等更多信息。经过类似度计算，发现电影A和C类似度较高，由于他们都属于爱情类。系统还会发现用户A喜欢电影A，由此得出结论，用户A极可能对电影C也感兴趣。因而将电影C推荐给A。

　　对用户兴趣能够很好的建模，并经过对物品属性维度的增长，得到更好的推荐精度

　　b 物品类似度的衡量标准只考虑到了物品自己，有必定的片面性

　　协同过滤是推荐算法中最经典最经常使用的，具体的思路我已经在以前的一篇文章中提到过，你们能够去看一下。

　　这里只想介绍一下协同过滤中的方法和刚才提到方法的区别。

　　你们都知道协同过滤分为基于用户的协同过滤和基于物品的协同过滤。那么他们和基于人口学统计的推荐和基于内容的推荐有什么区别和联系呢？下面简单介绍一下。

　　基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是计算用户的类似度，并基于“邻居”用户群计算推荐，但它们所不一样的是如何计算用户的类似度，基于人口统计学的机制只考虑用户自己的特征，而基于用户的协同过滤机制但是在用户的历史偏好的数据上计算用户的类似度，它的基本假设是，喜欢相似物品的用户可能有相同或者类似的口味和偏好。

　　基于项目的协同过滤推荐和基于内容的推荐其实都是基于物品类似度预测推荐，只是类似度计算的方法不同，前者是从用户历史的偏好推断，然后者是基于物品自己的属性特征信息。

　　a 它不须要对物品或者用户进行严格的建模，并且不要求物品的描述是机器可理解的，因此这种方法也是领域无关的。

　　b 这种方法计算出来的推荐是开放的，能够共用他人的经验，很好的支持用户发现潜在的兴趣偏好

　　a 方法的核心是基于历史数据，因此对新物品和新用户都有“冷启动”的问题。

　　b 推荐的效果依赖于用户历史偏好数据的多少和准确性。

　　c 在大部分的实现中，用户历史偏好是用稀疏矩阵进行存储的，而稀疏矩阵上的计算有些明显的问题，包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。

　　e 因为以历史数据为基础，抓取和建模用户的偏好后，很难修改或者根据用户的使用演变，从而致使这个方法不够灵活。

　　以上介绍的方法是推荐领域最多见的几种方法。可是能够看出，每一个方法都不是完美的。所以实际应用中，向Amazon这样的系统都是混合使用各类推荐算法，各取所长。所以咱们在使用时，也能够多考虑一下什么状况下更适合使用哪一种算法，来提升咱们系统的效率。

　　1 须要考虑在保证推荐准确性的同时增长推荐的多样性，使特殊喜爱的用户获得推荐

　　2 须要考虑用户对系统的实时反馈，更好的利用反馈数据强化推荐算法

欢迎你们拍砖～更多资料请看 http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html

互联网推荐系统漫谈

推荐系统这个东西其实在咱们的生活中无处不在，好比我早上买包子的时候，老板就常常问我要不要来杯豆浆，这就是一种简单的推荐。随着互联网的发展，把线下的这种模式搬到线上成了大势所趋，它大大扩展了推荐系统的应用：亚马逊的商品推荐，Facebook的好友推荐，Digg的文章推荐，豆瓣的豆瓣猜，Last.fm和豆瓣FM的音乐推荐，Gmail里的广告......在现在互联网信息过载的状况下，信息消费者想方便地找到本身感兴趣的内容，信息生产者则想将本身的内容推送到最合适的目标用户那儿。而推荐系统正是要充当这二者的中介，一举两得解决这两个难题。

算法vs人

有不少人怀疑推荐系统是否会让一我的关注的东西愈来愈局限，但看完这些你会以为并不是如此，多样性，新颖性和惊喜度也都是考察推荐系统的要素。而至于算法和人究竟哪一个更重要的争论，我很赞同唐茶创始人李如一的一个观点：

在技术社群的讨论里，你们默认以为让推荐算法变得更聪明、让软件变得更「智能」必定是好事。但人不能那么懒的。连「发现本身可能感兴趣的内容」这件事都要交给机器作吗？不要以为我是Luddite。真正的技术主义者永远会把人放到第一位。

我想补充的是，算法虽然不能解决所有问题，但算法能够变得更人性化。套用某人「网络就是社会」的论断，其实算法和人之间早已不那么泾渭分明了。

推荐系统开源软件汇总

我收集和整理的目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system)，并附上了我的的一些简单点评（未必全面准确），

这方面的中文资料不多见，但愿对国内的朋友了解掌握推荐系统有帮助

陈运文

SVDFeature

由上海交大的同窗开发的，C++语言，代码质量很高。去年咱们参加KDD竞赛时用过，很是好用，并且出自我们国人之手，因此置顶推荐！

项目地址：

http://svdfeature.apexlab.org/wiki/Main_Page

SVDFeature包含一个很灵活的Matrix Factorization推荐框架，能方便的实现SVD、SVD++等方法, 是单模型推荐算法中精度最高的一种。SVDFeature代码精炼，能够用相对较少的内存实现较大规模的单机版矩阵分解运算。

另外含有Logistic regression的model，能够很方便的用来进行ensemble运算

Crab

项目地址：

http://geektell.com/story/crab-recommender-systems-in-python/

系统的Tutorial能够看这里：

http://muricoca.github.io/crab/

Crab是基于Python开发的开源推荐软件，其中实现有item和user的协同过滤。听说更多算法还在开发中，

Crab的python代码看上去很清晰明了，适合一读

CofiRank

C++开发的 Collaborative Filtering算法的开源推荐系统，但彷佛2009年后做者就没有更新了，

CofiRank依赖boost库，联编会比较麻烦。不是特别推荐

项目地址：

http://www.cofirank.org/

EasyRec

Java开发的推荐系统，感受更像一个完整的推荐产品，包括了数据录入模块、管理模块、推荐挖掘、离线分析等，整个系统比较完备。

项目地址：

http://easyrec.org/

GraphLab

项目地址：

http://graphlab.org/

Graphlab是基于C++开发的一个高性能分布式graph处理挖掘系统，特色是对迭代的并行计算处理能力强（这方面是hadoop的弱项），

因为功能独到，GraphLab在业界名声很响

用GraphLab来进行大数据量的random walk或graph-based的推荐算法很是有效。

Graphlab虽然名气比较响亮（CMU开发），可是对通常数据量的应用来讲可能还用不上

Lenskit

http://lenskit.grouplens.org/

这个Java开发的开源推荐系统，来自美国的明尼苏达大学，也是推荐领域知名的测试数据集Movielens的做者，

他们的推荐系统团队，在学术圈内的影响力很大，不少新的学术思想会放到这里

Mahout

网址

http://mahout.apache.org/

Mahout知名度很高，是Apache基金资助的重要项目，在国内流传很广，并已经有一些中文相关书籍了。注意Mahout是一个分布式机器学习算法的集合，协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现（Hadoop-based，另有pure Java版本），Mahout里还有其余常见的机器学习算法的分布式实现方案。

另外Mahout的做者之一Sean Owen基于Mahout开发了一个试验性质的推荐系统，称为Myrrix, 能够看这里：

http://myrrix.com/quick-start/

MyMediaLite

http://mymedialite.net/index.html

基于.NET框架的C#开发（也有Java版本），做者基原本自德国、英国等欧洲的一些高校。

除了提供了常见场景的推荐算法，MyMediaLite也有Social Matrix Factorization这样独特的功能

尽管是.Net框架，但也提供了Python、Ruby等脚本语言的调用API

MyMediaLite的做者之一Lars Schmidt在2012年KDD会议上专门介绍过他们系统的一些状况，惋惜因为.Net开发框架日渐式微，MyMediaLite对Windows NT Server的系统吸引力大些，LAMP网站用得不多

LibFM

项目网址：

http://www.libfm.org/

做者是德国Konstanz University的Steffen Rendle，去年KDD Cup竞赛上咱们的老对手，他用LibFM同时玩转Track1和Track2两个子竞赛单元，都取得了很好的成绩，说明LibFM是很是管用的利器（虽然在Track1上被咱们战胜了，hiahia）

顾名思义，LibFM是专门用于矩阵分解的利器，尤为是其中实现了MCMC（Markov Chain Monte Carlo）优化算法，比常见的SGD（随即梯度降低）优化方法精度要高（固然也会慢一些）

顺便八卦下，去年KDD会议上和Steffen当面聊过，他很腼腆并且喜欢偷笑，呵呵挺可爱。

LibMF

项目地址：

http://www.csie.ntu.edu.tw/~cjlin/libmf/

注意LibMF和上面的LibFM是两个不一样的开源项目。这个LibMF的做者是大名鼎鼎的台湾国立大学，他们在机器学习领域颇负盛名，近年连续多届KDD Cup竞赛上均得到优异成绩，并曾连续多年得到冠军。台湾大学的风格很是务实，业界经常使用的LibSVM， Liblinear等都是他们开发的，开源代码的效率和质量都很是高

LibMF在矩阵分解的并行化方面做出了很好的贡献，针对SDG优化方法在并行计算中存在的locking problem和memory discontinuity问题，提出了一种矩阵分解的高效算法，根据计算节点的个数来划分评分矩阵block，并分配计算节点。系统介绍能够见这篇论文（Recsys 2013的 Best paper Award）

Y. Zhuang, W.-S. Chin, Y.-C. Juan, and C.-J. Lin. A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems. Proceedings of ACM Recommender Systems 2013.

PREA

全名是 Personalized Recommendation Algorithms Toolkit, 开发语言为Java。也是一个轻量级的开源项目

项目网址：

http://mloss.org/software/view/420/

放在Mloss这个大project下。我我的感受PREA仍是比较简陋的，参加开发的三位工程师Joonseok Lee, Mingxuan Sun, Guy Lebanon更新频率很低，提供的资料也少。

不过Mloss下却是能找到其余一些推荐开源项目

http://mloss.org/software/tags/collaborative-filtering/

Python-recsys

一个很是轻量级的开源推荐系统，python开发，做者彷佛只有一位，

Python-recsys主要实现了SVD、Neighborhood SVD推荐算法，

这个项目麻雀虽小五脏俱全，评估数据（Movielens，Last.fm）、评估框架也都有

API也很简单清晰，代码简洁，属于推荐入门的良好教材。