推荐算法简介java
目前的推荐算法通常分为四大类:程序员
协同过滤推荐算法面试
基于内容的推荐算法算法
混合推荐算法数组
流行度推荐算法app
协同过滤的推荐算法机器学习
协同过滤推荐算法应该算是一种用的最多的推荐算法,它是经过用户的历史数据来构建“用户类似矩阵”和“产品类似矩阵”来对用户进行相关item的推荐,以达到精准知足用户喜爱的目的。好比亚马逊等电商网站上的“买过XXX的人也买了XXX”就是一种协同过滤算法的应用。oop
基于内容的推荐算法学习
基于内容的推荐算法,是将item的名称、简介等进行分词处理后,提取出TF-IDF值较大的词做为特征词,在此基础上构建item相关的特征向量,再根据余弦类似度来计算相关性,构建类似度矩阵。大数据
混合推荐算法
混合推荐算法很好理解,就是将其余算法推荐的结果赋予不一样的权重,而后将最后的综合结果进行推荐的方法。
举例来讲,好比上述已经提到了三种方式,协同过滤算法中的基于用户和基于item的协同过滤推荐,和基于内容的推荐算法;而混合推荐算法中是将这三种推荐结果赋予不一样的权重,如:基于用户的协同过滤的权重为40%,基于item的协同过滤的权重为30%,基于内容的过滤技术的权重为30%,而后综合计算获得最终的推荐结果。
流行度推荐算法
这个很基础,看名字就知道了。这种方法是对item使用某种形式的流行度度量,例如最多的下载次数或购买量,而后向新用户推荐这些受欢迎的item。就和咱们平时常常看到的热门商品、热门推荐相似。
浅析推荐算法在实际中的应用
了解了大概原理后,就能够来看看在实际场景中,推荐算法都是怎么使用的吧。(声明:这是我看了相关东西再结合本身理解进去推测的)好,下面开始,先说说协同过滤算法在实际中的应用。
协同过滤算法
协同过滤算法通常是怎么作的呢?咱们先来看看在图书推荐中的作法:
协同过滤(CF)大体可分为两类:一类是基于邻域的推荐、一类是基于模型的推荐;邻域方法是使用用户对已有item的喜好程度来推测用户对新item的喜好程度。与之相反,基于模型的方法是使用历史行为数据,基于学习出的预测模型,预测对新项的喜好程度。一般的方式是使用机器学习算法,找出用户与项的相互做用模型,从而找出数据中的特定模式。在此我向你们推荐一个大数据技术交流圈: 658558542 突破技术瓶颈,提高思惟能力
【基于邻域的推荐】–便是构建用户类似矩阵和产品类似矩阵
假设用户表现出了对一些图片的喜欢状况并进行了相应的评分,状况以下:
不一样图书表明不一样维度,评分则表明了特征向量在该维度上的投影长度,根据用户对不一样图书的喜好程度创建用户的特征向量,而后根据余弦类似度能够判断用户之间的类似性。根据类似性能够创建用户类似矩阵:
很显然,经过根据用户对历史图书的评分状况,能够获得用户对其的喜好状况,在此基础上构建出用户特征向量,能够必定程度上判断两个用户在图书品味上的类似程度,进而咱们能够认为,若A和B比较类似,能够认为A喜欢的书B也喜欢。
在给A用户进行图书推荐时,找到与其类似度较高的其余用户,而后除去A用户已看过的图书,结合类似用户对某本图书的喜好程度与该用户与A用户的类似度进行加权,获得的推荐指数越高的图书优先进行推荐。
这应该也是豆瓣等图书社区上使用的推荐算法之一,利用用户之间的类似度来进行推荐。固然,电影推荐也同理。
同理,反过来咱们能够按照类似的方位,以用户为维度来构建item的特征向量。 当咱们须要判断两本书是否类似时,就去看对这两本书进行过评价的用户构成是否类似,便是使用评价过一本书的用户向量(或数组)表示这本图书;也就是说,若是有两本书的评价中,用户重合度较高,便可认为该两本书类似度较高。其实借用的仍是用户类似的基础。(《白话大数据与机器学习》中也提到过类似的推荐算法,感兴趣的同窗能够找来看一下)。
在音乐的推荐中一样用到了协同过滤算法,咱们众所周知的使用个性化推荐的音乐app应该属「网易云音乐」比较典型了。
那么咱们就来yy一下网易云音乐的推荐算法,首先用户过去都会有听歌的历史,因为音乐中没有相关的评分机制,那么能够根据用户对音乐的行为来创建一个喜好程度模型,例如:收藏-5分,加入歌单-4分,单曲循环-3分,分享-5分,听一遍就删-0分(原本想说负分滚粗的)。这样就大概有了一个喜欢程度列表,因而接下来就能够根据用户的听歌状况,创建用户的特征向量,接下来的推荐就顺利成章了。
固然,基于协同过滤算法的用户类似度矩阵算法应该只是网易云采起的一种推荐方式,接下来还会说到另外的方式。
值得注意的是,协同过滤的推荐算法虽然使用得很广且推荐效果也较好,但仍是存在一些不足之处:
协同过滤算法(CF)推荐中存在流行性误差,由于协同过滤算法是基于惯性数据来进行推荐的,流行的物品因为关注的用户多,产生的数据也多,所以能够创建较为有效的推荐机制;而对于小众或长尾的产品(没人用过也没人评分过),则没法有效推荐;
冷启动问题(又叫作新用户问题,或推荐新项问题),一样是因为惯性数据的缺失,致使一开始的推荐算法没法创建;这样的问题能够经过流行性算法进行必定程度的解决,固然也能够利用基于内容的推荐算法来进行解决(后面会提到)。
基于内容的过滤算法
简介部分已经提到了基于内容的过滤算法的基本原理,这里就再也不重复了,直接说一下具体大概是怎么用的吧。基于内容的过滤方式与协同过滤中创建用户类似矩阵的方式相似,都是利用特征向量来进行余弦类似度计算,从而判断物品的类似性。首先, 利用分词技术对书籍的标题和内容进行处理,去掉权重为0的词(如的、得、地等);而后,取 TF-IDF值较大的词做为特征词,并将其提取出来做为标签;
接着, 根据特征词创建书籍的特征向量;
最后, 计算不一样书籍之间的余弦类似度,并凭次创建书籍之间的类似度矩阵;
基于内容的协同过滤算法,最主要的初级步骤是经过分词技术对标题和简介等进行处理,造成特征标签。例如,对于图书和电影而言,能够对名称和简介进行特征词提取,从而构建特征向量;固然,在豆瓣上发现能够用一种更省事的方法,就是让用户进行对做品评价时须要勾选相关的标签,这样只要为不一样种类提供足够多的标签供用户选择便可(固然这是我猜的);
而若是对于音乐的推荐呢?没有相关简介,歌名也不具有足够的指向性,这种状况下则能够经过音乐自己的类别来做为标签进行特征向量的构建,例如:民谣、摇滚、怀旧等;我猜这也是网易云音乐采用的一种推荐方式吧。
而对于36氪之类的资讯网站,采用什么样的推荐算法也可以有必定程度的理解了吧,原理都是相似的。
基于内容的推荐因为不须要太多的惯性数据,所以能够部分解决冷启动问题和流行性误差,也就是弥补了协同过滤算法中的部分不足,所以也能够将二者混合起来使用,例如混合推荐算法就是采用了这样的方式;其次,须要注意的是,若是单纯使用基于内容的过滤算法,会出现过分专业化问题,致使推荐列表里面出现的大多都是同一类东西,有的小伙伴可能也观察到了相似的现象,好比在亚马逊上购买哪本书(好比java相关的),会发现推荐的书籍里全是java相关的,就是由于出现了过分专业化的现象。
结语
推荐算法的原理其实基于数学的原理获得解决(向量、余弦类似度等),其实其余各种也同理,都是可在数学的基础上获得思路和衍生,如用来进行情感判断的朴素贝叶斯算法,就是将人才能理解的情感问题转化成了基本的几率问题而获得解决,包括天然语言处理(NLP)和语音识别等,由此真是能够体会到数学的博大精深啊。
感谢您的观看,若有不足之处,欢迎批评指正。
在此我向你们推荐一个大数据开发交流圈:
658558542 (☛点击便可加入群聊)
里面整理了一大份学习资料,全都是些干货,包括大数据技术入门,大数据离线处理、数据实时处理、Hadoop 、Spark、Flink、推荐系统算法以及源码解析等,送给每一位大数据小伙伴,让自学更轻松。这里不止是小白汇集地,还有大牛在线解答!欢迎初学和进阶中的小伙伴一块儿进群学习交流,共同进步!
最后祝福全部遇到瓶颈的大数据程序员们突破本身,祝福你们在日后的工做与面试中一切顺利。